
ARANI: Uma Abordagem Elástica Baseada em Linha de Experimento para Preservação de Privacidade e Auditoria em Data Lakes
Resumo:
A adoção de Data Lakes como padrão de facto para o armazenamento de dados heterogêneos tem introduzido desafios à governança de dados, especialmente quanto à conformidade com regulamentações de privacidade, como a Lei Geral de Proteção de Dados e o Regulamento Geral sobre a Proteção de Dados. Nesses ecossistemas de dados de larga escala, garantir segurança e privacidade exige a aplicação coordenada de mecanismos de proteção, como o k-anonimato e a privacidade diferencial, a fim de mitigar ameaças de reidentificação. Entretanto, abordagens existentes ou não escalam adequadamente ou carecem de flexibilidade para combinar dinamicamente essas técnicas em uma sequência de processamento de dados unificada e auditável. Esta dissertação apresenta a ARANI, um framework elástico e auditável de Privacy-as-a-Service (PraaS) voltado para ambientes de dados em larga escala. Diferentemente de soluções restritas a métodos proprietários, a ARANI oferece um ambiente pouco acoplado e independente de ferramentas, permitindo a integração de técnicas heterogêneas de anonimização adaptadas a cada contexto. O projeto da ARANI é baseado no conceito de Linha de Experimento para modelar fluxos complexos de anonimização, apoiado por uma arquitetura escalável implantada sobre Kubernetes. O rastreio e auditabilidade das transformações de dados nos fluxos de anonimização é garantida pela captura de dados de proveniência. Além disso, a Função de Custo de Anonimização, proposta nessa dissertação, permite avaliar qualitativamente as Linhas de Experimentos por meio da combinação de pesos configuráveis para utilidade e risco de privacidade. O framework foi avaliado com dados reais de criminalidade da Secretaria de Segurança Pública de São Paulo (SSP-SP) e o conjunto de dados UCI Adult Census. Os resultados experimentais indicam que a ARANI suporta múltiplas estratégias e fluxos de anonimização, preservando a conformidade regulatória. Ademais, ao explorar princípios de conteinerização, a ARANI em ambiente distribuído processa eficientemente fluxos concorrentes, com redução do tempo de execução e com tolerância a falhas, confirmando a escalabilidade e robustez do framework em termos de utilidade e privacidade.
Abstract:
The adoption of Data Lakes as the de facto standard for storing heterogeneous data has introduced challenges to data governance, particularly regarding compliance with privacy regulations, such as the Brazilian Data Protection Law and the E.U. General Data Protection Regulation. Ensuring security and privacy in these large-scale data ecosystems requires applying protection mechanisms, such as k-anonymity and differential privacy, to mitigate re-identification threats. However, existing approaches either fail to scale adequately or lack the flexibility to dynamically combine these techniques into a unified and auditable data processing pipeline. This study presents ARANI, an elastic and auditable Privacy-as-a-Service (PraaS) framework designed for large-scale data environments. Unlike solutions that are restricted to proprietary methods, ARANI provides a loosely coupled, tool-agnostic environment, enabling the integration of heterogeneous anonymization techniques tailored to specific contexts. The ARANI design is grounded in the concept of Experiment Lines for modeling complex anonymization workflows, supported by a scalable architecture deployed on Kubernetes. ARANI also relies on provenance data to ensure traceability and auditability for data transformations within anonymization workflows. Furthermore, the Anonymization Cost Function proposed in this dissertation enables the qualitative evaluation of Experiment Lines by combining configurable weights for data utility and privacy risk. The framework was evaluated using real-world crime data from the São Paulo State Department of Public Security (SSP-SP) and the UCI Adult Census dataset. Experimental results indicate that ARANI supports multiple anonymization strategies and workflows while preserving regulatory compliance. Moreover, in a distributed environment, ARANI efficiently processes concurrent workflows by leveraging containerization principles, reducing execution time, and providing fault tolerance. These characteristics confirm the framework’s scalability and robustness, while consistently preserving both data utility and privacy.
Banca examinadora:
Profa. Daniel Cardoso Moraes de Oliveira, UFF
Prof. Marcos Vinícius Naves Bêdo, UFF
Profa. Vanessa Braganholo Murta, UFF
Prof. Javam de Castro Machado, UFC