
Defesa de Dissertação de Mestrado de Fernando Pereira Carneiro, em 24/08/23, às 10:00h, por videoconferência. Link para defesa: https://meet.google.com/rio-bjvh-ebg
BERTweet.BR: A Pre-Trained Language Model for Tweets in Portuguese
Resumo:
A maioria dos avanços recentes nos modelos de língua neurais são avaliados em benchmarks e tarefas primordialmente em uma língua, o inglês. Menos atenção é dada a mais de sete mil outras línguas, faladas por aproximadamente 6.5 bilhões de pessoas ao redor do mundo. Uma delas é o português: apesar de ser a sexta língua mais falada no mundo, ainda existem muito menos recursos linguísticos para treinamento e avaliação de redes neurais em português, em comparação com o inglês. Notavelmente, os usuários de língua portuguesa compõem um dos grupos mais ativos de usuários do Twitter; no entanto, nenhum modelo de língua pré-treinado em tweets em português foi estudado extensivamente na literatura. Além da língua, os modelos pré-treinados baseados em tweets devem levar em conta aspectos culturais, o estilo linguístico informal, emprego de símbolos e o número limitado de caracteres. Esta dissertação busca endereçar essa lacuna ao introduzir o BERTweet.BR, o primeiro modelo pré-treinado em larga escala específico para o domínio de tweets em português do Brasil. O modelo BERTweet.BR possui a mesma arquitetura do BERTweet Base, tendo sido treinado do zero seguindo o procedimento de pré-treinamento do modelo RoBERTa em um corpus de 100M de tweets em português. Na tarefa de análise de sentimentos, os experimentos mostram que o BERTweet.BR supera três modelos multilíngues baseados na arquitetura dos Transformers, além do BERTimbau, um modelo de Transformers genérico pré-treinado especificamente para o português do Brasil. Desta forma, fica demonstrado que o modelo de língua BERTweet.BR possui grande potencial para fomentar novas pesquisas em tarefas analíticas para tweets em Português.
Abstract:
Most recent progress in neural language models predominantly focuses on one language, English. Less attention is given to the more than seven thousand others, spoken by approximately 6.5 billion people around the world. One of these is Portuguese: despite being the sixth most spoken language in the world, still has fewer neural-based linguistic resources compared to English. Notably, Portuguese speakers compose one of the most active groups of Twitter users; however, no pre-trained language model for Portuguese tweets has been extensively studied in the literature. Besides the language, tweets-based pre-trained models must account for the cultural code, informal linguistic style, code-switching, and the limited number of characters. This manuscript addresses this gap by introducing BERTweet.BR, the first public available large-scale pre-trained model specifically for the Brazilian Portuguese tweets domain. BERTweet.BR has the same architecture as BERTweet Base, a BERT-based model for English tweets, and was trained from scratch following the RoBERTa pre-training procedure on a 100M Portuguese tweets corpus. On the sentiment analysis task, experiments show that BERTweet.BR outperforms three multilingual Transformers and BERTimbau, a monolingual general-domain Brazilian Portuguese language model. Thus, BERTweet.BR language model demonstrates significant potential to foster new research in analytical tasks for Portuguese tweets.
Banca examinadora:
Prof. Aline Marins Paes Carvalho, UFF – Presidente
Prof. Alexandre Plastino de Carvalho, UFF
Prof. Flavia Cristina Bernardini, UFF
Prof. Daniela Quitete de Campos Vianna, UFAM
Prof. Nádia Félix Felipe da Silva, UFG