
Defesa de Proposta de Tese de Doutorado de Claudio Ananias Ferraz, 02/09/25, 14h, por videoconferência
Governança de Dados em Estatísticas Oficiais Apoiada por Dados de Proveniência
Resumo:
A modernização da produção de estatísticas oficiais requer a incorporação de novas fontes de dados e a aplicação de técnicas de Aprendizado de Máquina. Esse processo é impulsionado pela crescente disponibilidade de informações, pela redução da participação da população em pesquisas e pela necessidade de otimização de custos. No entanto, o uso de fontes alternativas impõe desafios relacionados à obtenção, ao processamento e à análise dos dados. Nesta proposta de Tese de Doutorado, investigamos os tipos de dados e os requisitos necessários para apoiar a modernização dos Institutos Nacionais de Estatística (INEs) e propomos uma arquitetura de referência para orientar essa transformação, assegurando a manutenção dos padrões das estatísticas oficiais. A partir das lacunas identificadas nessa arquitetura, propomos o uso de estratégias de gerenciamento de dados de proveniência, em apoio à governança de dados, de modo a fortalecer os requisitos de rastreabilidade, reprodutibilidade, transparência e interpretabilidade nos novos processos de produção estatística. Como principal contribuição, este trabalho busca oferecer fundamentos conceituais e diretrizes técnicas que permitam aos INEs reforçar a confiança e a qualidade das estatísticas produzidas em ambientes cada vez mais complexos, dinâmicos e automatizados.
Abstract:
The modernization of official statistics production requires the incorporation of new data sources and the application of Machine Learning techniques. This process is driven by the growing availability of information, the declining participation of the population in surveys, and the need to optimize costs. However, the use of alternative sources poses challenges related to data acquisition, processing, and analysis. In this Ph.D. thesis proposal, we investigate the types of data and the requirements necessary to support the modernization of National Statistical Institutes (NSIs), and we propose a reference architecture to guide this transformation while ensuring compliance with the standards of official statistics. Based on the gaps identified in this architecture, we propose the adoption of provenance data management strategies, in support of data governance, to strengthen the requirements of traceability, reproducibility, transparency, and interpretability in the new processes of statistical production. As its main contribution, this work seeks to provide conceptual foundations and technical guidelines that enable NSIs to reinforce trust and enhance the quality of statistics produced in increasingly complex, dynamic, and automated environments.
Banca examinadora:
Prof. Daniel Cardoso Moraes de Oliveira, UFF – Presidente
Profa. Flavia Cristina Bernardini, UFF
Prof. Victor Ströele de Andrade Menezes, UFJF
Prof. Marta Lima de Queirós Mattoso, UFRJ
Dra. Débora Barbosa Pina, UFRJ/pós-doutorado
Prof. Cristiano Maciel, UFMT