Defesa de Dissertação de Mestrado de Matheus Antunes Vieira, em 08/08/2024, às 10:00 horas, por videoconferência
Link para defesa: https://meet.google.com/ppm-pstn-eiy
Enriquecimento de Data Warehouses por meio de Dados de Proveniência: Um Estudo de Caso da STI/UFF
Resumo:
O processo de Business Intelligence inclui uma série de camadas responsáveis pela coleta, preparação e transformação de dados de diferentes origens, que são organizados e armazenados em uma base analítica (no contexto dessa dissertação, um Data Warehouse (DW)) que é capaz de responder às perguntas de interesse dos gestores das organizações. A etapa de extração, transformação e carga dos dados desse processo é denominada ETL, e consiste em uma etapa responsável por tratar os dados para serem fornecidos como indicadores que auxiliam em processos decisórios. Esse tratamento deve ser realizado corretamente, considerando o estado do dado, pois falhas podem resultar em resultados inconsistentes, influenciando decisões de negócios sem subsídio adequado. A proveniência fornece uma solução natural para o rastreamento de processos, possibilitando a captura dos passos executados e indicando possíveis não-conformidades ao longo de um determinado fluxo. Além disso, a proveniência permite explorar a atribuição de responsabilidade, onde as execuções dos processos podem ser devidamente auditadas, identificando o horário das execuções e os responsáveis por iniciá-las. Esta dissertação explora a conciliação desse processo de Business Intelligence com a área de proveniência de dados, apresentando uma solução de captura dos dados de proveniência em rotinas ETL, denominada ProvETL. A ProvETL extrai dados de proveniência prospectiva, referentes ao fluxo percorrido pelo dado, bem como de natureza retrospectiva, relacionados aos dados obtidos em tempo de execução, com o objetivo de apoiar processos de depuração em busca de inconsistências geradas pelos dados, além de auxiliar o processo de atribuição de responsabilidade. Para avaliar a solução obtida, foi utilizado o ambiente de DW da STI da UFF como estudo de caso, onde foram realizadas três avaliações principais, além da avaliação da sobrecarga adicionada com essa coleta de dados. Os resultados dos estudos demonstraram que a ProvETL conseguiu identificar inconsistências nos dados, proporcionando possíveis ações corretivas para cada caso. Já a análise de sobrecarga mostrou um aumento no tempo de execução das rotinas considerado aceitável pelos analistas, tendo em vista o benefício obtido através da análise das possíveis inconsistências e das atribuições de responsabilidade.
Abstract:
The Business Intelligence process includes a series of layers responsible for collecting, preparing, and transforming data from different sources. Those data are organized and stored in an analytical database (in this context, a Data Warehouse (DW)) capable of answering quantitative queries from organizations’ managers. The Extract-Transform-Load phase (ETL) is responsible for asserting data quality that will provide indicators for the decision making queries. Therefore, ETL processes must feed cleansed data to the DW, as it may lead to inconsistent support to decision-makers otherwise. Provenance provides a natural solution tracking such processes, enabling the capture of executed steps and indicating possible non-conformities along a given flow. Moreover, provenance allows exploring responsibility attribution, in which process executions are audited by identifying when they are executed and who initiated them. This dissertation explores the reconciliation of Business Intelligence with Provenance in a tool named ProvETL, which provides a solution for capturing provenance data within ETL routines. ProvETL extracts (i) prospective provenance as the data path structure and (ii) retrospective provenance related to data collected at runtime, aiming to support debugging processes that identify inconsistencies and support responsibility attribution. The DW environment of STI at UFF was used as a case study to showcase ProvETL capabilities in three quality-driven evaluations and one overhead assessment trial. The results showed ProvETL successfully identified data inconsistencies, providing potential corrective actions for each case. Moreover, the overhead analysis showed an acceptable increase in runtime according to the DW analysts, who weighted the benefits derived from solving inconsistencies and attributing responsibilities as most critical.
Banca examinadora:
Prof. Marcos Vinícius Naves Bêdo, UFF – Presidente
Prof. Daniel Cardoso Moraes de Oliveira, UFF
Profa. Vanessa Braganholo Murta, UFF
Prof. Eduardo Soares Ogasawara, CEFET/RJ
Profa. Maria Claudia Reis Cavalcanti, IME/RJ