
Defesa de Dissertação de Mestrado de Gabriel Assis de Moraes, 17/03/26, 10h, por videoconferência
Link para defesa: https://meet.google.com/bvy-rmpe-byn
On the Trail of a Green and Golden Generative AI: Assessing LLM Text Generation in Brazilian Portuguese
Resumo:
Modelos de Linguagem de Grande Porte (LLMs) estão cada vez mais integrados a aplicações do cotidiano. No entanto, sua avaliação ainda se concentra em benchmarks restritos e discriminativos. Tais avaliações frequentemente falham em capturar propriedades generativas que são fundamentais para o uso prático desses modelos. Além disso, avaliações em larga escala permanecem fortemente enviesadas para o inglês, o que limita a compreensão do desempenho de LLMs em outros idiomas. Esta dissertação aborda essas limitações ao propor um framework abrangente para a avaliação generativa textual de LLMs em português brasileiro, considerando quatro tarefas de Geração de Linguagem Natural (NLG): sumarização, simplificação textual, question-answering generativo e geração de texto controlada por fatos relevantes financeiros (MF-CTG). Particularmente no contexto da MF-CTG, motivada pela escassez de recursos voltados à avaliação da geração de textos em domínios financeiros, esta pesquisa introduz uma metodologia para a coleta e o alinhamento de comentários financeiros especializados com divulgações corporativas oficiais obtidas na web, resultando no LLM4FinComm, um novo conjunto de dados para apoiar a avaliação da geração de textos financeiros no contexto brasileiro. Utilizando o framework proposto, conduzimos uma avaliação abrangente de treze famílias de LLMs, incluindo modelos ajustados para o português, como Sabiá-3, Bode e Tucano, modelos multilíngues de pesos abertos, como Gemma-3, Llama-4 e Mistral-3, e modelos comerciais internacionais, como GPT-4o e Command-R+. A avaliação combina um conjunto diversificado de métricas automáticas, um paradigma de LLM-as-a-judge e avaliação humana, complementados por análises de eficiência computacional e emissões equivalentes de CO2. Os resultados indicam que os modelos da família GPT-4o alcançam o melhor desempenho generativo geral em português, enquanto os modelos Sabiá-3, desenvolvidos nacionalmente, se aproximam de resultados do estado da arte de forma consistente. Embora os modelos de pesos abertos não igualem esse desempenho, eles apresentam equilíbrio em termos de eficiência, especialmente no caso de modelos como Tucano e Bode. Para esse grupo, o desempenho varia entre tarefas e critérios de avaliação, reforçando a importância de abordagens sensíveis ao contexto e à tarefa na avaliação generativa. Tomados em conjunto, os resultados desta dissertação contribuem tanto com evidências empíricas sobre as capacidades de LLMs em português quanto com avanços metodológicos para a avaliação generativa em cenários linguísticos e de domínio específicos relevantes ao contexto brasileiro.
Abstract:
Large Language Models (LLMs) are increasingly embedded in real-world applications, yet their evaluation remains largely centered on narrow, discriminative benchmarks. Such evaluation pipelines often fail to capture essential generative properties, which are critical for practical deployment. Moreover, large-scale assessments are predominantly biased toward English, limiting insights into LLM performance in other languages. This dissertation addresses these limitations by proposing a comprehensive framework for evaluating LLMs on text generation tasks in Brazilian Portuguese across four core Natural Language Generation (NLG) tasks: summarization, text simplification, generative question answering, and material fact controllable text generation (MF-CTG). Particularly in the context of MF-CTG, motivated by the scarcity of resources for evaluating text generation in specialized financial domains in Portuguese, this work introduces a methodology for collecting and aligning expert financial commentaries with official corporate disclosures sourced from the web. This process results in the creation of LLM4FinComm, a novel dataset specifically designed to support the evaluation of financial text generation in the Brazilian context. Using the proposed framework, we conduct a comprehensive evaluation of thirteen LLM families, including models tailored to Portuguese such as Sabiá-3, Bode, and Tucano, open-weight multilingual models such as Gemma-3, Llama-4, and Mistral-3, and commercial international models including GPT-4o and Command-R+. The evaluation combines a diverse set of automatic metrics, an LLM-as-a-judge paradigm, and human assessment, complemented by analyses of computational efficiency, and equivalent CO2 emissions. The results show that proprietary models from the GPT-4o family achieve the highest overall generative performance in Portuguese, while the nationally developed Sabiá-3 models closely approach state-of-the-art results across tasks. Open-weight models do not consistently match the generative quality of commercial systems, but they present competitive trade-offs in efficiency, particularly in the case of models such as Tucano and Bode. For this group of models, performance varies substantially across tasks and evaluation criteria, highlighting the importance of task-aware and context-sensitive evaluation. Taken as a whole, this dissertation contributes both empirical insights into Portuguese LLM capabilities and methodological advances for the evaluation of generative models in language and domain-specific settings relevant to the Brazilian context.
Banca examinadora:
Profa. Aline Marins Paes Carvalho, UFF
Prof. Alexandre Plastino de Carvalho, UFF
Prof. Altigran Soares da Silva, UFAM
Prof. Arnaldo Cândido Junior, UNESP