
Defesa de Tese de Doutorado de Bruno Erbisti Garcia – 10/03/2025, 13h30, por videoconferência
Link para defesa: https://meet.google.com/xer-ehfi-owk
Incremental Recomputation in Statistical Dimensional Aggregations
Resumo:
A análise estatística de dados é fundamental no auxílio à interpretação de grandes volumes de informações, permitindo identificar padrões, monitorar mudanças ao longo do tempo e subsidiar decisões. Diversas instituições de pesquisa e estatística frequentemente utilizam processos de consolidação de dados para gerar agregações multidimensionais em plataformas de processamento analítico online (OLAP). No entanto, a necessidade frequente de atualização e correção dos dados pode tornar a recomputação completa das agregações computacionalmente custosa e redundante, especialmente em cenários envolvendo grandes volumes de dados. Este trabalho propõe um modelo incremental de recomputação de agregações estatísticas, baseado no processamento seletivo de atualizações e no reaproveitamento de cálculos anteriores, eliminando a necessidade de reprocessar todo o conjunto de dados. O método utiliza uma estrutura de processo ETL (Extração, Transformação e Carga) e explora o cálculo incremental em agregações distributivas e algébricas por meio da linguagem SQL. Para tornar o método mais eficiente do que a abordagem tradicional, utilizamos técnicas como Common Table Expressions (CTEs), operações JOIN e WINDOW FUNCTIONS, garantindo que apenas as agregações impactadas por inserções, atualizações e deleções sejam recalculadas. A abordagem foi validada por meio de experimentos com conjuntos de dados simulados, cujas características foram extraídas do Cadastro Central de Empresas do Instituto Brasileiro de Geografia e Estatística (IBGE). O experimento reproduz um cenário real de pesquisa que requer atualizações periódicas ao longo de suas etapas de crítica, imputação até a sua conclusão. Os resultados demonstram que a recomputação incremental e seletiva reduz significativamente o tempo de processamento e otimiza o uso de recursos computacionais, preservando simultaneamente a rastreabilidade e a consistência dos dados versionados. O método proposto é particularmente vantajoso para pesquisas que lidam com grandes volumes de dados e necessitam manter a integridade de seus modelos multidimensionais, reduzindo tanto o tempo de processamento quanto a carga de armazenamento em plataformas OLAP.
Abstract:
Statistical data analysis plays a fundamental role in the interpretation of large volumes of information, allowing the identification of patterns, monitoring changes over time, and supporting decisions. Several research and statistical institutions often use processes to consolidate information and generate multidimensional aggregations in online analytical processing (OLAP) platforms. However, the frequent need for data updating and correction can make the complete recomputation of aggregations computationally expensive and redundant, especially in scenarios involving large volumes of data. This work proposes an incremental model for recomputing statistical aggregations based on the selective processing of updates and the reuse of previous calculations, eliminating the need to reprocess the entire data set. The method uses an ETL (Extraction, Transformation and Load) process structure and explores incremental calculation in distributive and algebraic aggregations through the SQL language. To make the method more efficient than the traditional approach, we use techniques such as Common Table Expressions (CTEs), JOIN and WINDOW FUNCTIONS operations, ensuring that only aggregations impacted by inserts, updates, and deletes are recalculated. We validate the method through experiments with simulated data sets, whose characteristics were extracted from the Central Business Registry of the Brazilian Institute of Geography and Statistics (IBGE). The experiment reproduces a real research scenario, requiring periodic updates throughout its editing, imputation, and completion stages. The results demonstrate that incremental and selective recomputation significantly reduces processing time and optimizes the use of computational resources while simultaneously preserving the traceability and consistency of versioned data. The proposed method is particularly advantageous for research that deals with large volumes of data and needs to maintain the integrity of its multidimensional models, reducing both processing time and storage load on OLAP platforms.
Banca examinadora:
Profa. Vanessa Braganholo Murta, UFF – Presidente
Prof. Daniel Cardoso Moraes de Oliveira, UFF
Prof. Marcos Vinícius Naves Bêdo, UFF
Prof. Sérgio Lifschitz, PUC-Rio
Prof. Karin Becker, UFRGS