
Defesa de Dissertação de Mestrado de Elbe Alves Miranda, em 08/12/2023, às 14:00 horas, por videoconferência
Link para defesa: https://meet.google.com/spb-
O SPARQL Pode Falar Português? Respondendo Perguntas em Linguagem Natural Usando Grafos de Conhecimento
Resumo:
A tarefa de Perguntas e Respostas em Grafos de Conhecimento (KGQA) concentra-se em responder perguntas em linguagem natural para permitir que os usuários obtenham respostas, mesmo quando não estão familiarizados com uma linguagem de consulta, como o SPARQL. A maioria das soluções atuais se concentra principalmente no treinamento de modelos de aprendizado de máquina para converter perguntas em linguagem natural em inglês para uma linguagem de consulta. Existem poucas iniciativas limitadas para outros idiomas, como o português, o sexto idioma mais falado no mundo e com desafios linguísticos próprios. Infelizmente, essas limitações também incluem menos conjuntos de dados para reproduzir as soluções de ML baseadas em inglês para outros idiomas. Este artigo apresenta uma técnica baseada em recursos limitados para a tarefa de KGQA em português. Em vez de treinar uma solução end-to-end, construímos uma solução composta de componentes modulares: análise de perguntas, classificação de perguntas, mapeamento de frases, geração de consultas e classificação de consultas. Nossas contribuições abrangem modelos treinados para classificação de perguntas e classificação de consultas especificamente adaptados para o português, além de uma solução abrangente para responder perguntas em linguagem natural a partir de grafos de conhecimento. Nos experimentos conduzidos usando o conjunto de dados QALD, nossa solução alcançou uma pontuação F1 de 15,6% na tarefa de KGQA. Até onde sabemos, esta é a primeira solução de KGQA projetada para o português que utiliza o conjunto de dados padrão QALD.
Abstract:
Knowledge Graph Question Answering (KGQA) focuses on answering questions in natural language to enable users to obtain answers even when they are unfamiliar with a query language such as SPARQL. Most current solutions primarily focus on training machine learning (ML) models to convert a natural language question in English to a query language. Limited initiatives exist for other languages like Portuguese, usually listed as the sixth most spoken language in the work and with linguistic challenges on its own. Unfortunately, those limitations also include fewer datasets for reproducing the English-based ML solutions in other languages. This paper presents a low-resource-based technique for the task of KGQA in Portuguese. Instead of training an end-to-end solution, we build it from five modular components: question analyses, question classification, phrase mapping, query generation, and query ranking. Our contributions encompass trained models for question classification and query ranking specifically tailored for Portuguese and a comprehensive solution for answering questions in natural language from KGs. In the experiments conducted using the QALD dataset, our solution achieved an F1-score of 15.6% in the KGQA. To the best of our knowledge, this is the first KGQA solution designed for Portuguese that utilizes the standard QALD dataset.
Banca examinadora:
Prof.ª Aline Marins Paes Carvalho, UFF – Presidente
Prof. Daniel Cardoso Moraes de Oliveira, UFF
Prof. Marcos Vinícius Naves Bêdo, UFF
Prof. Ronaldo dos Santos Mello, UFSC