
Defesa de Proposta de Tese de Doutorado de Annie Vianna Amorim, 15/09/25, 16h, por videoconferência
Link para defesa: https://meet.google.com/gzc-tmsd-nnf
Fusão de Modelos Transformers para Aprimorar a Generalização na Classificação de Textos em Português
Resumo:
A acelerada expansão da Inteligência Artificial, impulsionada pelos avanços recentes em modelos de linguagem baseados em Transformers, fomentou o desenvolvimento de milhares de modelos especializados para tarefas e conjuntos de dados específicos. Contudo, o crescimento contínuo no número desses modelos traz consigo desafios significativos relacionados à escalabilidade, à manutenção e à generalização. Essa proliferação acarreta custos computacionais elevados, maior fragmentação de soluções e dificuldades na construção de representações robustas e reutilizáveis. Além disso, torna-se cada vez mais complexo identificar o modelo mais adequado diante da ampla variedade existente. Nesse cenário, parte-se da hipótese de que as técnicas de Fusão de Modelos podem representar uma abordagem promissora para enfrentar esses desafios, ao integrar o conhecimento de múltiplos modelos previamente ajustados e potencialmente construir uma única solução com melhor capacidade de generalização. Ao consolidar diferentes especializações em uma única representação, a fusão contribui para a redução de custos computacionais e de armazenamento. Esta pesquisa investiga a fusão de modelos pré-treinados baseados em BERT por meio de dez estratégias distintas, que abrangem desde métodos simples, como (i) Simple Merging e (ii) Select Simple Merging, até abordagens mais sofisticadas que incorporam informações adicionais, como (iii) Fisher Merging, (iv) Select Fisher Merging, (v) RegMean, (vi) Task Arithmetic Addition, (vii) TIES-MERGING, (viii) DARE-Simple Merging, (ix) Robust Fine-tuning e (x) Select Epoch Merging. A eficácia dessas estratégias é avaliada na tarefa de detecção de discurso de ódio em português, no contexto de redes sociais brasileiras, um cenário particularmente desafiador, dada a natureza ambígua e altamente contextual da linguagem ofensiva. Modelos individuais frequentemente falham em capturar nuances linguísticas e variações socioculturais presentes em dados fora de seu domínio de treinamento, o que torna a fusão uma alternativa estratégica para integrar diferentes especializações. Os resultados obtidos indicam que técnicas como Task Arithmetic e TIES-MERGING não apenas superam os modelos individuais em desempenho, como também apresentam maior estabilidade entre diferentes configurações experimentais. Essas estratégias demonstram eficácia na superação da fragmentação causada pela especialização excessiva, promovendo representações mais unificadas, eficientes e com elevado potencial de generalização. Ainda assim, os experimentos indicam que a melhor estratégia de fusão varia conforme o cenário, o que dificulta a definição de um único método capaz de maximizar a generalização em todos os contextos. Diante disso, como próximos passos, será proposto um novo método orientado à generalização, assim como o desenvolvimento de um módulo de recomendação de estratégias de fusão, baseado em características dos dados, da tarefa e dos objetivos da aplicação. Essa proposta visa facilitar a escolha do método mais adequado às necessidades específicas de cada cenário, promovendo soluções mais eficazes e adaptáveis.
Abstract:
The accelerated expansion of Artificial Intelligence, driven by recent advances in language models based on Transformers, has fostered the development of thousands of specialized models for specific tasks and datasets. However, the continued growth in the number of these models brings significant challenges related to scalability, maintainability, and generalization. This proliferation leads to high computational costs, greater fragmentation of solutions, and difficulties in building robust and reusable representations. In addition, identifying the most appropriate model is becoming increasingly complex, given the wide variety. In this scenario, it is hypothesized that Model Fusion techniques may represent a promising approach to face these challenges by integrating the knowledge of multiple previously adjusted models and building a single solution with better generalizability. The merger reduces computational and storage costs by consolidating different specializations into a single representation. This research investigates the merge of pre-trained models based on BERT through ten distinct strategies, ranging from simple methods, such as (i) Simple Merging and (ii) Select Simple Merging, to more sophisticated approaches that incorporate additional information, such as (iii) Fisher Merging, (iv) Select Fisher Merging, (v) RegMean, (vi) Task Arithmetic Addition, (vii) TIES-MERGING, (viii) DARE-Simple Merging, (ix) Robust Fine-tuning and (x) Select Epoch Merging. The effectiveness of these strategies is evaluated in detecting hate speech in Portuguese, in the context of Brazilian social networks — a particularly challenging scenario given the ambiguous and highly contextual nature of the offensive language. Individual models often fail to capture linguistic nuances and sociocultural variations in data outside their training domain, making merging a strategic alternative to integrate different specializations. The results indicate that techniques such as Task Arithmetic and TIES-MERGING outperform the individual models and present greater stability between different experimental configurations. These strategies effectively overcome the fragmentation caused by excessive specialization, promoting more unified, efficient representations with high potential for generalization. Still, the experiments indicate that the best merge strategy varies according to the scenario, which makes it challenging to define a single method capable of maximizing generalization in all contexts. Therefore, as next steps, a new process oriented to generalization will be proposed, as well as the development of a module for recommending merge strategies, based on characteristics of the data, the task, and the objectives of the application. This proposal aims to facilitate the choice of the most appropriate method for the specific needs of each scenario, promoting more effective and adaptable solutions.
Banca examinadora:
Profa. Aline Marins Paes Carvalho, UFF – Presidente
Prof. Daniel Cardoso Moraes de Oliveira, UFF
Profa. Flavia Cristina Bernardini, UFF
Prof. Artur Jordão Lima Correia, USP
Prof. Fábio André Machado Porto, LNCC