
Defesa de Dissertação de João Vítor Oliveira Ferreira, 08/07/25, 14h, por videoconferência
Link para defesa: https://meet.google.com/hpg-svpy-cds
MetamorphicAFC: A Metamorphic Testing Framework to Evaluate Fake News Detection in Language Models-based Classifiers
Resumo:
Este estudo apresenta o MetamorphicAFC, um framework de testes metamórficos criado para avaliar a robustez de sistemas de verificação automática de factos baseados em modelos linguísticos, quando expostos a perturbações sistemáticas nos dados fornecidos. Ao todo, definimos 20 tipos de relações de transformação, cada uma focada em um componente específico de uma instância de verificação de factos, como, por exemplo, a alegação, o autor da alegação, o contexto e campos de metadados.
As instâncias transformadas são então avaliadas pelos sistemas de verificação, permitindo- nos avaliar se as previsões realizadas são coerentes, isto é, se alteram (ou se mantêm) de maneira apropriada diante de cada tipo de transformação. O foco do estudo são instâncias escritas em português, extraídas do conjunto de dados multilingue X-FACT.
A análise foi conduzida em três modelos de linguagem de uso geral, GPT-4 (Ope- nAI), Gemini Flash 2.0 (Google) e Sabia-3 (Maritaca), além do verificador de factos AFC, CONCRETE. Embora esses modelos apresentem um desempenho aceitável quando operam sobre os dados originais, os testes metamórficos do MetamorphicAFC revelam fragilidades, especialmente na manipulação de negações, contextos enganosos e inconsistências temporais.
Esses resultados reforçam a relevância de se avaliar a robustez dos sistemas no combate à desinformação e demonstram como os testes metamórficos podem servir como uma ferramenta valiosa para diagnosticar e aprimorar a confiabilidade de sistemas automatizados de verificação de factos.
Abstract:
This study introduces MetamorphicAFC, a metamorphic testing framework designed to assess the robustness of language model-based automated fact-checking systems when ex- posed to systematic data perturbations. We define 20 transformation relations targeting each component of a fact-checking instance, namely, the claim, the claimant, context, and metadata fields. These transformed instances are then submitted for classification, allowing us to evaluate whether the system appropriately changes (or maintains) its pre- dictions in response to each transformation. Our study focuses on instances written in Portuguese gathered from the multilingual fact-checking dataset X-FACT. The evalua- tion includes three general-purpose large language models – GPT-4 (OpenAI), Gemini Flash 2.0 (Google), and Sabia-3 (Maritaca) – and the domain-specific fact-checking sys- tem CONCRETE. While these models reach acceptable classification performance in the original data, the metamorphic tests conducted with MetamorphicAFC uncover notable weaknesses, particularly in handling negations, misleading context, and temporal incon- sistencies. These findings underscore the importance of robustness evaluation in misin- formation detection and confirm metamorphic testing as a valuable diagnostic tool for improving the reliability of automated fact-checking systems.
Banca examinadora:
Profa. Vânia de Oliveira Neves, UFF – Presidente
Profa. Aline Marins Paes Carvalho, UFF
Prof. João Felipe Nicolaci Pimentel, UFF
Prof. Renato Moraes Silva, USP
Prof. Vinicius Humberto Serapilha Durelli, UFSCar