Defesa de Proposta de Tese de Doutorado de Regis Antônio Saraiva Albuquerque – 25/03/2025, 15h, por videoconferência

Defesa de Proposta de Tese de Doutorado de Regis Antônio Saraiva Albuquerque – 25/03/2025, 15h, por videoconferência

Link para defesa: https://meet.google.com/amn-upyu-dwo

Algoritmos de Desaprendizagem de Máquina para Construção de Modelos Baseados em Árvores de Decisão em Cenários de Fluxos de Dados

Resumo:

Diante da crescente importância do direito ao esquecimento, especialmente no contexto de regulamentações que visam garantir a privacidade e a autonomia dos usuários como a GDPR e da ética na Inteligência Artificial, especialmente em relação ao uso de dados em modelos de Aprendizado de Máquina, é essencial considerar como essas práticas afetam a proteção de dados e os direitos individuais. Tais regulamentações visam promover uma IA que respeite esses princípios éticos, reafirmando a necessidade de soluções que permitam o esquecimento de dados. Este trabalho investiga técnicas de Desaprendizagem de Máquina “Machine Unlearning”, com um foco particular em árvores de decisão e cenários de fluxos de dados dinâmicos, propondo-se a desenvolver métodos que possibilitem a remoção seletiva de dados enquanto preservam a performance dos modelos, contribuindo para a adaptação contínua dos sistemas em ambientes onde os dados evoluem rapidamente. A metodologia proposta inclui adaptar árvores de decisão para remoção seletiva de dados, utilizando algoritmos de aprendizado em fluxo de dados para classificação e que tratam o problema de concept drift. A premissa desta pesquisa é que o desaprendizado de máquina pode ser visto como uma mudança de conceito ao longo do tempo, o que é amplamente abordado em aprendizado em fluxo de dados. Assim, serão exploradas as características hierárquicas de modelos baseados em árvore de decisão, construídos por algoritmos de aprendizado em fluxo de dados, a fim de atualizar apenas os nós afetados. Foram realizados experimentos iniciais com bases de dados reais e sintéticas para avaliar a eficiência do esquecimento utilizando o algoritmo de aprendizado em fluxo de dados HATT, que trata o concept drift internamente de forma específica, utilizando diferentes taxas de esquecimento (10\%, 25\%, 50\% e 75\%). Os resultados mostraram que a adaptação de algoritmos de aprendizado em fluxo de dados que tratam de mudança de conceito na distribuição dos dados é promissora. Assim, a pesquisa proposta neste documento irá contribuir para o avanço de soluções éticas em Aprendizado de Máquina, no sentido de evoluir para que modelos construídos possam se adaptar a cenários de esquecimento de dados, como exigido pelas novas regulamentações de proteção de dados.

Abstract:

Given the growing importance of the right to be forgotten, especially in the context of regulations aimed at ensuring user privacy and autonomy, such as the GDPR and the ethics in Artificial Intelligence, particularly regarding the use of data in Machine Learning models, it is essential to consider how these practices affect data protection and individual rights. Such regulations aim to promote AI that respects these ethical principles, reaffirming the need for solutions that allow for data forgetting. This work investigates Machine Unlearning techniques, with a particular focus on decision trees and dynamic data stream scenarios, proposing methods that enable selective data removal while preserving model performance, contributing to the continuous adaptation of systems in environments where data evolves rapidly. The proposed methodology includes adapting decision trees for selective data removal, utilizing data stream learning algorithms for classification that address the problem of concept drift. The premise of this research is that machine unlearning can be seen as a form of concept change over time, which is widely addressed in data stream learning. Thus, the hierarchical characteristics of decision tree-based models built by data stream learning algorithms will be explored to update only the affected nodes. Initial experiments were conducted using real and synthetic datasets to evaluate the efficiency of forgetting using the data stream learning algorithm HATT, which specifically addresses concept drift internally, using different forgetting rates (10\%, 25\%, 50\% e 75\%). The results showed that adapting data stream learning algorithms that handle concept changes in data distribution is promising. Therefore, the research proposed in this document will contribute to the advancement of ethical solutions in Machine Learning, aiming to evolve so that constructed models can adapt to data forgetting scenarios, as required by new data protection regulations.

Banca  examinadora:

Prof.ª Flavia Cristina Bernardini, UFF – Presidente

Prof. Antonio Augusto de Aragão Rocha, UFF

Prof.ª Ana Carolina Lorena, ITA

Prof.ª Eulanda Miranda dos Santos, UFAM

Related Posts

Leave a Reply