
Defesa de Tese de Doutorado de Jose Luis Huillca Mango, 13/03/26, 17h, por videoconferência
Link para defesa: meet.google.com/ysd-bkaf-zmz
Multimodal Embedding for Scientific Image Caption Generation
Resumo:
A geração automática de legendas de imagens emergiu da convergência entre Visão Computacional e Processamento de Linguagem Natural, tradicionalmente aplicada à descrição de imagens naturais em frases curtas. Contudo, as imagens científicas presentes em artigos acadêmicos diferem substancialmente das imagens naturais, pois carregam significados técnicos que não podem ser inferidos apenas dos pixels. Essas figuras são acompanhadas por parágrafos de menção, que condensam vocabulário especializado e lógica interpretativa, funcionando como uma ponte entre a representação visual e o conhecimento científico.
Esta tese defende que é possível gerar legendas precisas e contextualizadas para imagens científicas explorando, de forma autônoma, o conhecimento resumido contido nos parágrafos de menção. Para demonstrar essa hipótese, apresentamos o MMICap, um paradigma multimodal baseado em aprendizado profundo que integra imagens científicas e seus textos descritivos para produzir legendas que sintetizam de maneira fiel o conteúdo representado.
Além disso, introduzimos o ElsCap, um novo conjunto de dados construído a partir de artigos de acesso aberto do ScienceDirect, contendo 1.088.728 imagens científicas, cada uma acompanhada de legenda e parágrafo de menção. Os experimentos realizados com o ElsCap evidenciam que o MMICap potencializa a integração entre entradas visuais e textuais, superando abordagens unimodais. A avaliação, conduzida com métricas como BLEU, METEOR, ROUGE e CIDEr, mostra que redes como BLIP e LSTM, quando utilizadas como backbone do MMICap, produzem legendas mais informativas e contextualizadas do que quando operam isoladamente.
Assim, esta tese contribui para o avanço da legendagem automática de imagens científicas ao demonstrar que os parágrafos de menção não são apenas complementos textuais, mas elementos fundamentais para a geração de legendas que capturam tanto a precisão técnica quanto a interpretação contextual exigida pela comunicação científica.
Abstract:
Automatic image captioning has emerged from the convergence of Computer Vision and Natural Language Processing, traditionally applied to natural images through short descriptive sentences. However, scientific images in academic publications differ substantially from natural images, as they embody technical meanings that cannot be inferred solely from pixels. These figures are accompanied by mention paragraphs, which condense specialized vocabulary and interpretive logic, functioning as a bridge between visual representation and scientific knowledge.
This thesis argues that it is possible to autonomously generate accurate and contextualized captions for scientific images by leveraging the summarized knowledge contained in their mention paragraphs. To demonstrate this hypothesis, we present MMICap, a multimodal deep learning paradigm that integrates scientific images and their descriptive texts to produce captions that faithfully synthesize the represented content.
In addition, we introduce ElsCap, a novel dataset built from open-access articles retrieved from ScienceDirect, comprising 1,088,728 scientific images, each paired with its caption and mention paragraph. Experiments conducted with ElsCap show that MMICap enhances the integration of visual and textual inputs, outperforming unimodal approaches. Evaluation using BLEU, METEOR, ROUGE, and CIDEr metrics demonstrates that networks such as BLIP and LSTM, when employed as MMICap backbones, generate captions that are more informative and contextually grounded than when operating independently.
Thus, this thesis advances automatic captioning of scientific images by demonstrating that mention paragraphs are not merely textual complements, but fundamental elements for generating captions that capture both the technical precision and contextual interpretation required in scientific communication.
Banca examinadora:
Prof. Leandro Augusto Frata Fernandes, UFF – Presidente
Prof. Anselmo Antunes Montenegro, UFF
Profa. Aline Marins Paes Carvalho, UFF
Prof. Jorge Luis Poco Medina, FGV
Prof. Nivan Roberto Ferreira Junior, UFPE