1. Skip to Menu
  2. Skip to Content
  3. Skip to Footer

Defesa de Dissertação de Mestrado - Annie Vianna Amorim

24/03/2023, 14:00h, por videoconferência. Link para defesa:  https://meet.google.com/pij-ijvz-knu

Uma Metodologia para a Avaliação Experimental de Modelagem de Tópicos em Textos Curtos

Resumo:

As redes sociais são ferramentas amplamente utilizadas para expressar opiniões e interagir com outras pessoas. Elas servem ao propósito de propagar e disseminar informações para uma ampla audiência. As informações compartilhadas podem variar de sentimentos pessoais a posicionamentos políticos. Por essa razão, existe um grande interesse em explorar essas publicações, visando entender comportamentos sociais e tendências, preferências e hábitos das pessoas. Para auxiliar em tais análises, descobrir automaticamente os assuntos tratados nas postagens é primordial, o que pode ser abordado por métodos de modelagem de tópicos. No entanto, os dados provenientes das redes sociais são predominantemente textos informais, com vocabulário próprio, ruidosos e curtos, limitados a uma quantidade determinada de caracteres, dificultando a sua contextualização. Por isso, a descoberta automática de tópicos é desafiadora. Embora a modelagem de tópicos seja adequada para identificar os assuntos relevantes em textos, há vários métodos com diferentes abordagens, cada um com suas vantagens e desvantagens. Selecionar o método mais adequado para um determinado conjunto de dados é um processo complexo que vai além de simplesmente considerar as principais características dos métodos. A escolha do método ideal é ainda mais desafiadora para o uso de textos curtos, que apresentam baixa correlação, falta de contexto, ambiguidade, diversidade linguística e escassez de informações. Diante disto, nesta dissertação desenvolveu-se uma metodologia para avaliar quantitativa e qualitativamente diferentes métodos de modelagem de tópicos para conjuntos de textos curtos extraídos do Twitter™. A avaliação quantitativa utiliza métricas clássicas, como coerência e diversidade, já a avaliação qualitativa explora a semântica por trás dos tópicos, com um processo de rotulação automática que permite uma comparação mais clara entre os métodos. Além disso, os resultados dos métodos foram relacionados com eventos externos relevantes para uma compreensão mais completa da relação entre os dados e o contexto. Foram conduzidos experimentos com diversos métodos, incluindo aqueles baseados em abordagens probabilísticas e neurais, em diferentes conjuntos de dados. Concluiu-se que o método BERTopic apresentou o melhor desempenho em todos os experimentos.

Abstract:

Social networks are widely used tools to express opinions and interact with others. They serve the purpose of disseminating and disseminating information to a broad audience. Shared information can range from personal feelings to political positions. For this reason, there is a great interest in exploring these publications, aiming to understand social behaviors and trends, preferences and habits of people. To assist in such analyses, automatically discover the subjects dealt with in the posts is paramount, which can be addressed by topic modeling methods. However, data from social networks are predominantly informal texts, with their own vocabulary, noisy and short, limited to a certain amount of characters, making it difficult to contextualize them. That's why automatic topic discovery is challenging. Although topic modeling is appropriate for identifying relevant subjects in texts, there are several methods with different approaches, each with its advantages and disadvantages. Selecting the most appropriate method for a given dataset is a complex process that goes beyond simply considering the main characteristics of the methods. The choice of the ideal method is even more challenging for the use of short texts, which have low correlation, lack of context, ambiguity, linguistic diversity and scarcity of information. Therefore, this dissertation developed a methodology for quantitatively and qualitatively evaluating different topic modeling methods for short text sets extracted from Twitter. Quantitative evaluation uses classical metrics such as coherence and diversity, while qualitative evaluation explores the semantics behind the topics, with an automatic labeling process that allows a clearer comparison between the methods. In addition, the results of the methods were related to external events relevant to a more complete understanding of the relationship between the data and the context. Experiments were conducted with several methods, including those based on probabilistic and neural approaches, in different data sets. It was concluded that the BERTopic method presented the best performance in all experiments.

Banca  examinadora:

Prof. Aline Marins Paes Carvalho, UFF – Presidente
Prof. Daniel Cardoso Moraes de Oliveira, UFF
Prof. José Viterbo Filho, UFF
Dr. Vítor Silva Sousa, Snap Inc.
Prof. Nils Ever Murrugarra Llerena, Weber State University
Prof. Ticiana Linhares Coelho da Silva, UFC

PESQUISA PELO SITE

MENU

Início Instituto Laboratórios Departamento
Pesquisa Pós-Graduação Graduação Fale Conosco

CONTATO

IC-Mapa

Av. Gal. Milton Tavares de Souza, s/nº
São Domingos - Niterói - RJ
CEP: 24210-346

IC-UFF-Telefone-icone Fale Conosco

 Como Chegar

CONECTE-SE

IC-Conecte-se-Facebook IC-Conecte-se-Twitter

LINKS

Faperj Lattes Finep SBC PROGRAD
CAPES CNPQ SIAPENET IDUFF NDC

 

Desenvolvido por pela equipe de Suporte Técnico do Instituto de Computação - suporte.ic.uff.br - Web Designer: Emanuel Machado