
Defesa de Proposta de Tese de Doutorado de Augusto César Fadel, 05/09/25, 13h30, por videoconferência
Link para defesa: https://meet.google.com/suj-vnkr-qhf?hs=224
Abordagem de Otimização para Alocação de Privacy Budget no Problema de Agrupamento Diferencialmente Privado
Resumo:
Nos últimos tempos, com o advento das tecnologias digitais e todo aparato computacional disponível, a privacidade pessoal – em cenários rotineiros – tem sido alvo frequente de ataques que podem comprometer dados pessoais. Por sua vez, o compartilhamento de dados é uma fonte de valor para indivíduos, organizações e a sociedade, especialmente para Institutos Nacionais de Estatística (INE), que, ao disponibilizarem dados e estatísticas, devem buscar o equilíbrio no binômio utilidade e privacidade.
A prática de disponibilizar dados abertos, adotada comumente por organizações públicas, também impõe riscos institucionais, dada a possibilidade de reidentificação da unidade informante por meio de técnicas como record linkage. Nesse contexto, as Tecnologias de Aprimoramento da Privacidade (PET) têm ganhado espaço, em particular, a Privacidade Diferencial (PD), que surge como uma potencial alternativa, no âmbito dos INE, oferecendo mais flexibilidade, segurança e economia de recursos. Apesar disso, a implementação prática da PD impõe desafios relacionados à resolução do problema de alocação de privacy budget, que é fundamental para garantir o equilíbrio entre utilidade e privacidade. Uma abordagem comum para esse problema diz respeito à aplicação de algoritmos de agrupamento diferencialmente privado, sendo raras as abordagens – na literatura – que aplicam técnicas de otimização a sua resolução.
Considerando essa lacuna e tendo como objetivo contribuir para o avanço do estado da arte, propondo abordagens que otimizem o trade-off entre utilidade e privacidade, no contexto da análise de dados sensíveis, este trabalho de qualificação traz a proposta de pesquisa e desenvolvimento de novos algoritmos de agrupamento diferencialmente privado, baseados em metaheurísticas. Neste primeiro momento, considerando as características desse problema, foi proposto um algoritmo baseado na metaheurística BRKGA. No entanto, a proposta dessa pesquisa também é desenvolver outros algoritmos utilizando o framework Random-Key Optimizer (RKO) e mecanismos de aprendizado por reforço, que podem ser usados para calibração dos parâmetros dos algoritmos.
Em experimentos preliminares, realizados com 30 bases de dados, o algoritmo proposto – em uma versão simplificada – foi a segunda melhor estratégia, quando comparado com cinco abordagens de alocação de privacy budget propostas na literatura; fato que indica o seu potencial.
Abstract:
In recent times, with the advent of digital technologies and the wide range of available computational resources, personal privacy – even in routine scenarios – has been a frequent target of attacks that can compromise personal data. Data sharing, in turn, is a source of value for individuals, organizations, and society, especially for National Statistical Offices (NSOs), which, when making data and statistics available, must seek to balance utility and privacy.
The practice of releasing open data, commonly adopted by public organizations, also poses institutional risks, given the possibility of reidentifying the reporting unit through techniques such as record linkage. In this context, Privacy-Enhancing Technologies (PETs) have gained prominence, particularly Differential Privacy (DP), which emerges as a potential alternative within NSOs, offering greater flexibility, security, and resource savings. Nevertheless, the practical implementation of DP poses challenges related to solving the privacy budget allocation problem, which is essential for ensuring the balance between utility and privacy. A common approach to this problem involves the application of differentially private clustering algorithms, with few approaches in the literature applying optimization techniques to solve it.
Considering this gap, and aiming to contribute to the advancement of the state of the art by proposing approaches that optimize the trade-off between utility and privacy in the context of sensitive data analysis, this qualification work presents the research proposal and the development of new differentially private clustering algorithms based on metaheuristics. At this stage, given the characteristics of the problem, an algorithm based on the BRKGA metaheuristic has been proposed. However, the research also aims to develop other algorithms using the Random-Key Optimizer (RKO) framework and reinforcement learning mechanisms, which can be used for parameter tuning of the algorithms.
In preliminary experiments conducted with 30 datasets, the proposed algorithm – in a simplified version – ranked as the second-best strategy when compared with five privacy budget allocation approaches proposed in the literature, indicating its potential.
Banca examinadora:
Prof. Luiz Satoru Ochi, UFF – Presidente
Prof. Igor Machado Coelho, UFF
Prof. José André de Moura Brito, IBGE
Prof. Gustavo Silva Semaan, UFF
Prof. Nelson Maculan Filho, UFRJ