Defesa de Dissertação de Mestrado de Kauê Paraense Cardel, em 28/06/2024, às 10:00 horas, por videoconferência

Defesa de Dissertação de Mestrado de Kauê Paraense Cardel, em 28/06/2024, às 10:00 horas, por videoconferência

 

Link para defesa: https://meet.google.com/pmt-rxwh-xmb


Respondendo Perguntas em datasets RDF usando Similaridade Semântica

Resumo:

 

A quantidade de datasets disponíveis ao público está em constante aumento e esse conhecimento muitas vezes é estruturado em Bases de Dados através da Web Semântica. A informação contida nas Bases de Dados pode ser estruturada em grafos de conhecimentos compostos por triplas RDF (Resource Description Framework ), em formato (sujeito, predicado, objeto). Como um campo dedicado, a resposta a perguntas (Question Answering) tradicionalmente depende de técnicas de processamento de linguagem natural baseadas em regras ou aprendizado de máquina para traduzir perguntas em linguagem natural acerca do dataset em linguagem de consulta lógica (queries). Nesta dissertação, apresentamos uma abordagem inovadora para resposta a perguntas em conjuntos de dados RDF, utilizando similaridade semântica. Nosso método utiliza um modelo de linguagem pré-treinado na tarefa de gerar representações vetoriais de sentenças para obter embeddings das verbalizações de triplas RDF. Essas representações preservam o conteúdo semântico das verbalizações originais. Uma pergunta em linguagem natural feita a respeito do dado também é transformada em vetor pelo mesmo modelo. Utilizando uma técnica de busca eficiente por vetores próximos, obtemos as verbalizações de triplas que são mais semelhantes semanticamente à pergunta. Partindo da hipótese distribucional, assumimos que a possível resposta esteja nas triplas mais semelhantes. A dissertação propõe uma heurística para definir respostas individuais geradas pelo método e a utilização de medidas de precision e recall para avaliar a performance. Testes experimentais no Largescale Complex Question Answering Dataset (LC-QuAD) demonstraram a eficácia do método, alcançando respostas completas para 40% das perguntas e respostas parciais para 58%.

 

Abstract:

 

The number of data sets available to the public is constantly increasing and this knowledge is often structured in Databases through the Semantic Web. The information contained in Databases can be structured into knowledge graphs composed of RDF triples, in (subject, predicate, object) format. As a dedicated field, Question Answering traditionally relies on natural language processing techniques based on rules or machine learning to translate natural language questions about the dataset into logical query language. In this dissertation, we present an innovative approach to answering questions in sets of RDF data, using semantic similarity. Our method uses a pre-trained language model on the task of generating vector representations of sentences to obtain embeddings of RDF triples verbalizations. These representations preserve the content semantics of the original verbalizations. A question in natural language about the data is also transformed into a vector by the same model. Using a efficient search technique for nearby vectors, we obtain the verbalizations of triples that are semantically similar to the question. Starting from the distributional hypothesis, we assume that the possible answer lies in the most similar triples. The dissertation proposes a heuristic to define individual responses generated by the method and the use of precision and recall measures to performance evaluation. Experimental tests on Large-Scale Complex Question Answering Dataset (LC-QuAD) showed effectiveness of the method, achieving complete answers to 40% of the questions and partial answers to 58%.

 

Banca  examinadora:

 

Prof. Luiz André Portes Paes Leme, UFF – Presidente

Prof. Daniel Cardoso Moraes de Oliveira, UFF

Profa. Vanessa Braganholo Murta, UFPE

Prof. Marco Antonio Casanova, PUC-Rio

Related Posts

Leave a Reply