1. Skip to Menu
  2. Skip to Content
  3. Skip to Footer

Defesa de Proposta de Tese de Doutorado - Daniel Pinheiro da Silva Junior

28/06/2022, 14:00h, por videoconferência. Link para defesa: https://meet.google.com/sse-arpd-fht

Uma Abordagem para o Problema de Similaridade Semântica Textual com Dados Jurídicos em Português

Resumo:

No domínio jurídico, a necessidade de identificar documentos similares em um contexto processual é uma tarefa cotidiana, pois esses documentos similares servem para manter a coerência nas decisões e de base para petições. Essa tarefa de recuperação de documentos similares pode ser abordada com Aprendizado de Máquina (AM), por meio da subtarefa de Similaridade Semântica Textual (SST). Ao lidar com textos, as técnicas de AM requerem que eles sejam representados numericamente, que pode ser uma representação esparsa de alta dimensionalidade, ou densas de baixa dimensionalidade, neste último caso chamadas de embeddings. Resultados preliminares desta tese abordando a tarefa de SST com dados jurídicos como um Aprendizado Não-Supervisionado, mostraram que o uso de representações esparsas foram mais efetivas que o uso de embeddings para a recuperação de pares de documentos jurídicos similares. No entanto, a literatura tem apontado para uma inversão desses resultados quando tarefas de Processamento de Linguagem Natural, como a SST, são abordadas num cenário de Aprendizado Supervisionado. O Aprendizado Supervisionado requer dados rotulados, porém, obter esse tipo de rotulação é um processo custoso, ainda mais em domínios especializados, como o domínio jurídico. Dado o custo envolvido na obtenção de dados rotulados, esta tese propõe explorar o Active Learning (AL), que contempla um conjunto de técnicas que visa otimizar o compromisso entre quantidade e qualidade dos dados utilizados na construção de modelos de Aprendizado de Máquina. Quando o processo inclui modelos de Deep Learning (DL), como é o caso dos modelos que geram embeddings, tem-se o Deep Active Learning (DAL). Tem-se em vista a exploração do processo de (D)AL junto a todo o rastro de informações, denominado Proveniência, envolvido na indução dos modelos de Aprendizado de Máquina, como definições de dados de entrada e hiperparâmetros dos modelos. A literatura tem registro de modelos de proveniência para diversos domínios, no entanto, não encontramos modelos de proveniência que tenham sido testados, adaptados ou propostos para tratar da proveniência num processo de (D)AL. Também objetiva-se usar a proveniência capturada no nível de interface com o usuário, que pode ser usada para aprimorar o sistema de rotulagem por meio da identificação de padrões de elementos indicados pelo próprio usuário como relevantes para a rotulagem. A identificação desses padrões de elementos relevantes pode ser usada para enriquecer a apresentação de um novo exemplo para rotulagem, e também abre a oportunidade de uma posterior análise estatística que permita até mesmo inferir regras que possam ser utilizadas em uma rotulagem automática. Portanto, essa tese de doutorado tem como meta determinar o que deve ser registrado como proveniência do processo (D)AL, de forma a potencializar os benefícios da técnica (D)AL para a tarefa SST no contexto de dados jurídicos, e mapear quais dados de proveniência no nível de interface com usuário podem ser capturados no contexto de documentos jurídicos e utilizados posteriormente como facilitadores da rotulagem de dados para a tarefa de SST.

Abstract:

In the legal domain, retrieving similar documents in a lawsuit context is an everyday task, as these similar documents maintain coherence in decisions and serve as the basis of a new petition. The task of similar document retrieval can be addressed with Machine Learning as a Semantic Textual Similarity (STS) task. ML models require the text to have a numerical representation, which can be a high-dimensional sparse representation or a low-dimensional dense representation, the embeddings. Preliminary results of this thesis modeled the legal data STS task with Unsupervised Learning techniques. Those results pointed out that using sparse representations is more effective than using embeddings when retrieving pairs of similar legal documents. However, the literature has pointed to an inversion of these results when Natural Language Processing tasks, such as STS, are approached in a Supervised Learning scenario. Supervised Learning requires labeled data; however, obtaining this type of labeling is a costly process, even more so in specialized domains such as the legal domain. Given the cost involved in obtaining labeled data, this thesis proposes to explore Active Learning (AL), which includes a set of techniques that aim to optimize the compromise between the quantity and quality of data used in building Machine Learning models. When the process includes Deep Learning models, for example, to generate embeddings, it is called Deep Active Learning. The thesis intends to explore the (D)AL process together with the entire information trail, called Provenance, involved in the induction of Machine Learning models, such as definitions of input data and hyperparameters of the models. The literature has a record of Provenance models for several domains; however, we did not find Provenance models that have been tested, adapted, or previously proposed to deal with provenance in a (D)AL process. It also aims to use the provenance captured at the user interface level, which can be used to improve the labeling system by identifying patterns of elements the user himself indicates as relevant for labeling. The identification of these patterns of relevant features can be used to enrich the presentation of a new example for labeling and also opens the opportunity for further statistical analysis that even allows inferring rules that can be used in automatic labeling. Therefore, this thesis aims to determine what should be recorded as a provenance of the (D)AL process to maximize the benefits of the (D)AL technique for the STS task in the context of legal data. It also intends to map which data of provenance at the user interface level can be captured in the context of legal documents and used later as facilitators of data labeling for the STS task.

Banca  examinadora:

Prof. Aline Marins Paes Carvalho, UFF – Presidente
Prof. Daniel Cardoso Moraes de Oliveira, UFF
Prof. Mario Roberto Folhadela Benevides, UFF
Prof. Altigran Soares da Silva, UFAM
Prof. Paulo Roberto dos Santos Corval, UFF

PESQUISA PELO SITE

MENU

Início Instituto Laboratórios Departamento
Pesquisa Pós-Graduação Graduação Fale Conosco

CONTATO

IC-Mapa

Av. Gal. Milton Tavares de Souza, s/nº
São Domingos - Niterói - RJ
CEP: 24210-346

IC-UFF-Telefone-icone Fale Conosco

 Como Chegar

CONECTE-SE

IC-Conecte-se-Facebook IC-Conecte-se-Twitter

LINKS

Faperj Lattes Finep SBC PROGRAD
CAPES CNPQ SIAPENET IDUFF NDC

 

Desenvolvido por pela equipe de Suporte Técnico do Instituto de Computação - suporte.ic.uff.br - Web Designer: Emanuel Machado