Defesa de Dissertação de Mestrado de Pedro Alves Valentim, 09/03/26, 14h, na sala 310 do Instituto de Computção e por videoconferência

Defesa de Dissertação de Mestrado de Pedro Alves Valentim, 09/03/26, 14h, na sala 310 do Instituto de Computção e por videoconferência

 

Link para defesa: http://meet.google.com/eba-rmzi-kxk


Sistema para Geração de Audiodescrição Usando Modelos de Linguagem

Resumo:

 

Este trabalho aborda as barreiras de acessibilidade em mídias audiovisuais para o público cego e com baixa visão e investiga a geração automática de audiodescrição (AD). O objetivo é projetar e avaliar o SONA (Sistema para Narração e Audiodescrição Otimizadas), um sistema modular que gera roteiros e faixas protótipos de AD a partir de um único arquivo de vídeo. O fluxo de trabalho do sistema proposto identifica intervalos de fala para localizar lacunas para narração, segmenta o vídeo em planos, extrai e clusteriza rostos para representar personagens, oferece suporte opcional para nomeação manual, infere informações visuais relevantes por meio de visão computacional e modelos de linguagem multimodal, e compõe descrições concisas, limitadas pelas janelas de tempo disponíveis, produzindo saídas editáveis, como um roteiro temporizado e uma faixa de AD sintetizada, com mixagem opcional na trilha sonora original. O estudo avalia o sistema por meio de experimentos baseados em referências em dois benchmarks públicos que combinam pequenos trechos audiovisuais com descrições elaboradas por profissionais, e por meio de um estudo de caso baseado em um longa-metragem, comparando o roteiro produzido pelo sistema a um roteiro de AD profissional. A avaliação é complementada por uma análise qualitativa conduzida por um consultor experiente em audiodescrição, utilizando os resultados do sistema para dois longas-metragens. Os resultados quantitativos mostram uma sobreposição lexical muito baixa com as referências profissionais, juntamente com uma similaridade semântica substancialmente maior, um padrão consistente com a alta variabilidade de formulações válidas e com a geração em nível de clipe. A análise qualitativa relata uma taxa de fala e inteligibilidade percebidas muito favoráveis, forte conformidade com as lacunas de diálogo e preservação de sons relevantes, além de sincronia temporal intermediária. O roteiro gerado é considerado claro e consistentemente útil como um rascunho de trabalho, com um esforço moderado de pós-edição. A dissertação conclui que o sistema proposto é tecnicamente viável como uma ferramenta prática de elaboração para fluxos de trabalho de audiodescrição e que melhorias na percepção multimodal, no controle temporal e na escolha do idioma de saída podem fortalecer ainda mais a adequação narrativa e a prontidão para a produção.

 

Abstract:

 

This work addresses accessibility barriers in audiovisual media for blind and low-vision audiences and investigates automatic support for authoring audio description (AD). It aims at designing and evaluating SONA (System for Optimized Narration and Audiodescription), a modular system that generates time-aligned AD scripts and prototype narration tracks from a single video file. The proposed system’s pipeline identifies speech intervals to locate gaps to fit narration, segments the video into shots, extracts and clusters faces to represent characters, supports optional manual naming, infers relevant visual information through computer vision and multimodal language models, and composes concise descriptions constrained by the available time windows, producing editable outputs such as a timed script and a synthesized narration track, with optional mixing into the original soundtrack. The study evaluates the system through reference-based experiments on two public benchmarks that pair short audiovisual clips with professionally authored descriptions and through a full-length film case study, comparing the system’s produced AD script against a professional AD script, complemented by a qualitative assessment conducted by an experienced AD consultant using complete outputs for two feature films. Quantitative results show very low lexical overlap with professional references alongside substantially higher semantic similarity, a pattern consistent with the high variability of valid professional formulations and with clip-level generation. The qualitative assessment reports very favorable perceived speech rate and intelligibility, strong compliance with dialogue gaps and preservation of relevant sounds, and intermediate temporal synchrony, while judging the generated script clear and consistently useful as a working draft with moderate post-editing effort. The dissertation concludes that the proposed system is technically viable as a practical drafting tool for audio description workflows and that improvements in multimodal perception, temporal control, and language customization can further strengthen narrative adequacy and production readiness.

 

Banca  examinadora:

 

Profa. Débora Christina Muchaluat Saade, UFF

Prof. Esteban Walter Gonzalez Clua, UFF

Prof. Guido Lemos de Souza Filho, UFPB

Related Posts

Leave a Reply