Defesa de Dissertação de Mestrado de Raslan Oliveira Ribeiro, em 03/04/2024, às 14:00 horas, por videoconferência

Defesa de Dissertação de Mestrado de Raslan Oliveira Ribeiro, em 03/04/2024, às 14:00 horas, por videoconferência

 

Link para defesa: https://meet.google.com/atr-yfkn-icd


APOENA: uma Abordagem de Dimensionamento de Ambiente de Nuvem para Execução de Cargas de trabalho SQL-like por meio de Aprendizado de Máquina e Dados de Proveniência

Resumo:

 

Na última década, a geração de dados progrediu em um ritmo acelerado, colocando desafios no processamento, consulta e análise de grandes volumes de dados. Diversas plataformas e frameworks surgiram para auxiliar os usuários no tratamento de processamento de dados em grande escala por meio de ambientes de computação distribuídos e de alto desempenho, incluindo nuvens. Uma das plataformas mais proeminentes neste domínio é o Databricks, que oferece uma infinidade de serviços baseados em nuvem para executar com eficiência vários tipos de cargas de trabalho na nuvem. Entre essas cargas de trabalho estão as consultas do tipo SQL, que são o foco deste trabalho. No entanto, aproveitar a plataforma Databricks requer que os usuários especifiquem o tipo e o número de máquinas virtuais (VMs) a serem implantadas na nuvem para processar a carga de trabalho. Esta tarefa não é simples, mesmo para usuários experientes, pois eles devem escolher o tipo e a quantidade de VM entre mais de 100 opções disponíveis no catálogo de um provedor de nuvem. Embora os mecanismos de escalonamento automático estejam disponíveis no Databricks, eles são caros e usuários não especialistas podem achar difícil configurá-los. Para auxiliar usuários não especialistas no dimensionamento do ambiente de nuvem na execução de cargas de trabalho SQL no Databricks, este trabalho apresenta um middleware chamado APOENA. APOENA foi projetado para dimensionar o ambiente de nuvem para cargas de trabalho específicas do tipo SQL, coletando dados de origem. Esses dados são usados para treinar modelos de aprendizado de máquina (ML) capazes de prever o desempenho da consulta para uma combinação específica de características de consulta e configuração de cluster virtual. Experimentos com cargas de trabalho do mundo real mostraram que o APOENA classificou com precisão os tempos de execução de consultas para uma configuração de nuvem específica com mais de 90% de precisão.

 

Abstract:

 

Over the past decade, data generation has accelerated at a fast pace, posing challenges in processing, querying and analyzing such vast volumes of data. Several platforms and frameworks have emerged to assist users in handling large-scale data processing through distributed and high-performance computing environments, including clouds. One of the most prominent platforms in this domain is Databricks, offering a plethora of cloud-based services for efficiently executing several types of workloads in the cloud. Among these workloads are SQL-like queries, which are the focus of this paper. However, leveraging Databricks platform requires users to specify the type and number of virtual machines (VMs) to be deployed in the cloud that will be used to process the workload. This task is not straightforward, even for expert users, as they must choose the VM type and quantity from more than 100 options available in a cloud provider’s catalog. Although autoscaling mechanisms are available in Databricks, they are costly, and non-expert users may find it challenging to configure them. To assist non-expert users in dimensioning the cloud environment for executing SQL-like workloads in Databricks, this paper introduces a middleware named APOENA. APOENA is designed to dimension the cloud environment for specific SQL-like workloads by collecting provenance data. These data are used to train Machine Learning (ML) models capable of predicting query performance for a particular combination of query characteristics and virtual cluster configuration. Experiments with real-world workloads demonstrated that APOENA accurately classified query execution times for a specific cloud configuration with over 90% accuracy.

 

Banca  examinadora:

 

Prof. Daniel Cardoso Moraes de Oliveira, UFF – Presidente

Prof. Yuri Abitbol de Menezes Frota, UFF

Prof. Rafaelli de Carvalho Coutinho, CEFET-RJ

Profa. Maristela Terto de Holanda, UnB

Related Posts

Leave a Reply