
Defesa de Proposta de Tese de Doutorado de Arthur Mariano Rocha de Azevedo Scalercio, 10/04/2025, 10h, por videoconferência
Link para defesa: https://meet.google.com/dhc-dgki-xtp
Simplificação Textual em Português Via Transferência de Estilo Aprimorada por Recursos Linguísticos
Resumo:
A simplificação automática de textos (ATS) tem como objetivo reduzir a complexidade linguística de um texto para um determinado público-alvo. ATS beneficia pessoas com dificuldades de leitura, limitações cognitivas, estrangeiros e pessoas leigas em áreas específicas (jurídica, médica, acadêmica e administrativa). Também pode ser usada para melhorar outras tarefas, como sumarização e tradução. No entanto, métodos automáticos geralmente requerem conjuntos de dados (em pares) que podem ser difícies de coletar em idiomas que não sejam o inglês. Modelos de linguagem grandes (LLMs) se tornaram uma alternativa para simplificação de textos, uma vez que não precisam de treinamento específico para a tarefa. Porém, não há um benchmark de LLMs mostrando o desempenho deles para o português. Nesta tese, concentram-se as questões de pesquisa nos aspectos mais importantes e desafiadores da simplificação de texto (TS): criação de recursos linguísticos, a avaliação de modelos e a modelagem de novos métodos de TS. Primeiramente, apresenta-se uma nova abordagem para a simplificação de sentenças (SS) que utiliza paráfrases, contexto e atributos linguísticos para superar a ausência de textos pareados em português. O método proposto superou o estado da arte anterior e competiu com um LLM. Em seguida, apresenta-se uma comparação abrangente de desempenho de 26 LLMs do estado-da-arte para SS em português, juntamente com dois modelos de simplificação treinados explicitamente para esta tarefa e idioma. Eles são avaliados em um cenário de one-shot em conjuntos de dados científicos, notícias e governamentais. Os resultados revelam que, embora os LLMs de pesos abertos tenham alcançado resultados impressionantes, os LLMs de código fechado continuam superando-os. Dois novos conjuntos de dados foram construídos para a tarefa de SS: o corpus Museum-PT e o corpus Gov-Lang-BR (476 e 1.703 pares de sentenças complexas-simples do domínio de educação em ciências e de agências governamentais brasileiras, respectivamente). Além disso, incorpora-se a árvore de dependência sintática no treinamento do modelo de SS inicialmente proposto para melhorá-lo. Por fim, abre-se caminho para futuras pesquisas em simplificação de documentos (SD) em português do Brasil, com a criação de um conjunto de dados paralelo.
Abstract:
Automatic Text Simplification (ATS) aims to reduce the linguistic complexity of a text for a specific target audience. ATS benefits people with reading difficulties, cognitive limitations, foreigners, and non-experts in specific domains (legal, medical, academic, and administrative). It can also improve other tasks such as summarization and translation. However, automatic methods generally require paired datasets that can be difficult to collect in languages other than English. Large Language Models (LLMs) have become an alternative for text simplification, as they don’t need task-specific training. However, there is no benchmark of LLMs showing their performance for Portuguese. This thesis focuses its research questions on the most important and challenging aspects of Text Simplification (TS): creation of linguistic resources, model evaluation, and modeling of new TS methods. First, it presents a new approach for Sentence Simplification (SS) that uses paraphrases, context, and linguistic attributes to overcome the absence of paired texts in Portuguese. The proposed method outperformed the previous state-of-the-art and competed with an LLM. Next, it presents a comprehensive performance comparison of 26 state-of-the-art LLMs for Portuguese SS, alongside two simplification models trained explicitly for this task and language. They are evaluated under a one-shot setting across scientific, news, and government datasets. The findings reveal that while open-source LLMs have achieved impressive results, closed-source LLMs continue outperforming them. Two new datasets were built for the SS task: the Museum-PT corpus and the Gov-Lang-BR corpus (476 and 1,703 complex-simple sentence pairs from science education domain and Brazilian government agencies, respectively). Additionally, the syntactic dependency tree is incorporated into the training of the initially proposed SS model to improve it. Finally, it paves the way for future research in Document Simplification (DS) in Portuguese of Brazil, with the creation of a parallel dataset for the task.
Banca examinadora:
Profa. Aline Marins Paes Carvalho, UFF – Presidente
Profa. Luciana Cardoso de Castro Salgado, UFF
Profa. Maria José Bocorny Finatto, UFRGS
Profa. Viviane Pereira Moreira, UFRGS
Prof. Rodrigo Souza Wilkens, University of Exeter
Prof. Sidney Evaldo Leal, Venturus Centro de Inovação Tecnológica