1. Skip to Menu
  2. Skip to Content
  3. Skip to Footer

Defesa de Dissertação de Mestrado - Sérgio de Melo Barreto Junior

13/07/2021, 14:00h, por videoconferência. Link para defesa: http://meet.google.com/vtj-rpci-nmx

Sentiment Analysis in Tweets: An Assessment Study from Classical to Modern Text Representation Models

Abstract:

With the growth of social medias, such as Twitter, plenty of user-generated data emerge daily. The short texts published on Twitter – the tweets – have earned significant attention as a rich source of information to guide many decision-making processes. However, their inherent characteristics, such as the informal and noisy linguistic style, remain challenging to many natural language processing (NLP) tasks, including sentiment analysis. Sentiment classification is tackled mainly by machine learning-based classifiers. The literature has adopted word representations from distinct natures to transform tweets to vector-based inputs to feed sentiment classifiers. The representations come from simple count-based methods, such as bag-of-words, to more sophisticated ones, such as BERTweet, built upon the trendy BERT architecture. Nevertheless, most studies mainly focus on evaluating those models using only a small number of datasets. Despite the progress made in recent years in language modelling, there is still a gap regarding a robust evaluation of induced embeddings applied to sentiment analysis on tweets. Furthermore, while fine-tuning the model from downstream tasks is prominent nowadays, less attention has been given to adjustments based on the specific linguistic style of the data. In this context, this study fulfils an assessment of existing language models in distinguishing the sentiment expressed in tweets by using a rich collection of 22 datasets from distinct domains and five classification algorithms. The evaluation includes static and contextualized representations. Contexts are assembled from Transformer-based autoencoder models that are also fine-tuned based on the masked language model task, using a plethora of strategies.

Resumo:

Com o crescimento das mídias sociais, como o Twitter, muitos dados gerados pelos usuários surgem diariamente. Os textos curtos publicados no Twitter – os tweets – têm ganhado atenção significativa como uma fonte rica de informações para auxiliar na tomada de decisão. No entanto, as características inerentes dos tweets, como o tamanho reduzido e o estilo linguístico informal e ruidoso, continuam sendo um desafio para muitas tarefas de processamento de linguagem natural (PLN), incluindo a análise de sentimentos. A classificação de sentimentos em textos é abordada principalmente por classificadores baseados em aprendizado de máquina. ara transformar tweets em entradas baseadas em vetores para alimentar classificadores de sentimento, a literatura tem adotado representações de palavras de naturezas distintas. A geração das representações vetoriais são obtidas desde por  métodos simples baseados em contagem, como bag-of-words, até por métodos mais sofisticados que geram embeddings, como o BERTweet, construído sobre a notável arquitetura BERT. No entanto, a maioria dos estudos concentra-se principalmente na avaliação desses modelos de representação usando apenas um número reduzido de bases de dados. Apesar do progresso feito nos últimos anos na modelagem de linguagem, ainda há uma lacuna em relação a uma avaliação robusta de embeddings aplicados à análise de sentimento em tweets. Além disso, enquanto o ajuste do modelo visando a tarefa final tem se tornado popular, pouca atenção tem sido dada aos ajustes com base no estilo linguístico específico dos textos. Neste contexto, este estudo realiza uma avaliação dos modelos de linguagem existentes para a análise de sentimento expresso em tweets, usando uma rica coleção de 22 bases de dados de domínios distintos e cinco algoritmos de classificação. A avaliação inclui representações vetoriais estáticas e contextualizadas. Os contextos são identificados a partir de modelos de autoencoder baseados em Transformer, que também são ajustados com base na tarefa intermediária de modelo de linguagem mascarada, usando uma vasta quantidade de estratégias.

Banca  examinadora:

Prof. Alexandre Plastino de Carvalho, UFF – Presidente
Prof.ª Aline Marins Paes Carvalho, UFF
Prof. José Viterbo Filho, UFF
Prof.ª Viviane Pereira Moreira, UFRGS

PESQUISA PELO SITE

MENU

Início Instituto Laboratórios Departamento
Pesquisa Pós-Graduação Graduação Fale Conosco

CONTATO

IC-Mapa

Av. Gal. Milton Tavares de Souza, s/nº
São Domingos - Niterói - RJ
CEP: 24210-346

IC-UFF-Telefone-icone Fale Conosco

 Como Chegar

CONECTE-SE

IC-Conecte-se-Facebook IC-Conecte-se-Twitter

LINKS

Faperj Lattes Finep SBC PROGRAD
CAPES CNPQ SIAPENET IDUFF NDC

 

Desenvolvido por pela equipe de Suporte Técnico do Instituto de Computação - suporte.ic.uff.br - Web Designer: Emanuel Machado