Defesa de Dissertação de Mestrado de Camila Eleutério Gusmão – 04/10/2024, 14h, por videoconferência
Link para defesa: https://meet.google.com/sda-bxoj-uuh
Explorando a Generalização de Classificadores de Notícias Falsas em Português Baseados em Modelos de Linguagem
Resumo:
A pesquisa sobre a geração automática de classificadores de notícias falsas tem sido amplamente investigada para combater a desinformação global, amplificada pela Internet. No entanto, a maioria dos estudos se concentra na língua inglesa. Apesar dos classificadores mostrarem boa generalização em experimentos empíricos com uma mesma base de dados sendo usada para treinamento e avaliação, sua eficácia no mundo real, com notícias de variados assuntos e estilos, ainda é incerta. Além disso, não está claro quais características das bases de dados contribuem para melhores classificadores. Esta dissertação investiga a capacidade de generalização de classificadores baseados em modelos de linguagem na detecção de notícias falsas escritas em português. Para tanto, foram selecionados modelos de linguagem monolíngue e multilíngue incorporando variações da Arquitetura Transformer. Foram selecionadas 14 bases de dados em português, onde foram observadas características que podem influenciar o aprendizado, como estilo de escrita, assuntos, taxa de balanceamento e padrão na rotulação. Para investigar a generalização dos classificadores em diferentes bases, propomos duas estratégias: (i.) a generalização pós-treinamento dos classificadores, quando os modelos são testados com uma base diferente da que foram treinados (cross-data) e (ii.) a generalização do modelo de linguagem pré-treinado, com experimentos no estilo (zero-shot) que remontam à tarefa intermediária de completação. Os experimentos zero-shot ainda não se mostram capazes de classificar notícias falsas, porém o uso de LLMs como o Sabiá-3 podem auxiliar na distinção de textos com alegações verificáveis de sentenças de opinião. Já nos experimentos cross-data, dentre os encoders os classificadores baseados no BERTimbau obtiveram os melhores resultados, com dez deles atingindo F1 macro igual ou superior a 70% na avaliação de pelo menos uma base não utilizada no treinamento. O modelo mT5 gerou os classificadores com o maior alcance sobre dados não vistos durante o treinamento, porém necessitam de uma oferta maior de exemplos para obterem bons resultados.
Abstract:
Research into the automatic generation of fake news classifiers has been widely investigated to combat global disinformation, amplified by the Internet. However, most studies focus on the English language. Although the classifiers show good generalization in empirical experiments with the same dataset used for training and evaluation, their effectiveness in the real world, with news on various topics and styles, is still uncertain. Furthermore, it is unclear which characteristics of the datasets contribute to better classifiers. This article investigates the generalization capacity of classifiers based on language models in the detection of fake news written in Portuguese. For this purpose, monolingual and multilingual language models incorporating variations of the Transformer architecture were selected. 14 Portuguese data sets were chosen, in which characteristics that could influence learning were observed, such as writing style, topics, balance rate and labeling pattern. To investigate the generalization of classifiers on different datasets, we propose two strategies: (i) post-training generalization of classifiers, in which the models are tested on a different dataset to the one on which they were trained (cross-data), and (ii) generalization of the pre-trained language model, with zero-shot style experiments that resemble the intermediate task. The zero-shot experiments have not yet proven capable of classifying fake news, but the use of LLMs such as Sabiá-3 can help distinguish texts with verifiable claims from opinion statements. In the cross-data experiments, among the encoders the classifiers based on BERTimbau obtained the best results, with ten of them achieving F1 macro equal to or greater than 70% in the evaluation of at least one base not used in training. The mT5 model generated the classifiers with the greatest reach on data not seen during training, but they need a larger supply of examples to achieve great results.
Banca examinadora:
Profa. Aline Marins Paes Carvalho, UFF – Presidente
Profa. Flavia Cristina Bernardini, UFF
Profa. Thaiane Moreira de Oliveira, UFF
Profa. Ana Paula Couto da Silva, UFMG
Prof. Ronaldo Ribeiro Goldschmidt, IME