
Defesa de Dissertação de Mestrado de Mateus Silva de Melo, em 29/08/2024, às 09:00 horas, por videoconferência
Link para defesa: https://meet.google.com/vzy-dwgi-dkx
Otimização de Custo de Um Sistema de Modelagem Atmosférica em Nuvens Computacionais
Resumo:
Este trabalho propõe estratégias para reduzir os custos financeiros associados ao uso de clusters na nuvem, utilizando o AWS ParallelCluster para executar o modelo de previsão do tempo e clima BRAMS. Foi desenvolvida uma estratégia para executar uma versão tolerante a falhas do BRAMS em instâncias de mais baixo custo, sujeitas a revogação de utilização (mercado Spot), permitindo a retomada da execução da aplicação a partir de um checkpoint pré-gravado em novas instâncias Spot, caso haja revogação pelo provedor da nuvem. Além disso, uma segunda estratégia foi proposta, consistindo no desenvolvimento de um algoritmo de seleção de instâncias que obtém e compara os custos de vários tipos de instâncias em diferentes regiões e mercados, recomendando aquelas com os menores custos. Se a instância sugerida for uma instância Spot e houver revogação, a execução é reprogramada em instâncias On-Demand. Este trabalho também apresenta uma análise detalhada da execução do BRAMS em vários tipos de instâncias e propõe uma nova arquitetura de três filas para gerenciar a execução do BRAMS em instâncias On-Demand e Spot dentro do AWS ParallelCluster. Os resultados obtidos de domínios espaciais pequenos e grandes executados no AWS ParallelCluster usando as estratégias propostas indicam que adotar um cluster na nuvem é uma alternativa promissora para este tipo de aplicação de Computação de Alto Desempenho.
Abstract:
This work proposes strategies to reduce the financial costs associated with using cloud clusters by utilizing AWS ParallelCluster to run the BRAMS weather and climate forecast model. A strategy was developed to run a fault-tolerant version of BRAMS on lower-cost instances, subject to usage revocation (Spot market), allowing the application to resume execution from a pre-recorded checkpoint on new Spot instances in case of revocation by the cloud provider. Additionally, a second strategy was proposed, consisting of developing an instance selection algorithm that obtains and compares the costs of various instance types in different regions and markets, recommending those with the lowest costs. If the suggested instance is a Spot instance and it is revoked, the execution is rescheduled on On-Demand instances. This work also presents a detailed analysis of BRAMS execution on various instance types and proposes a novel three-queue architecture to manage BRAMS execution on On-Demand and Spot instances within AWS ParallelCluster. The results obtained from small and large spatial domains executed in AWS ParallelCluster using the proposed strategies indicate that adopting a cloud cluster is a promising alternative for this type of High-Performance Computing application.
Banca examinadora:
Profa. Lúcia Maria de Assumpção Drummond, UFF – Presidente
Profa. Flavia Coimbra Delicato, UFF
Prof. Roberto Pinto Souto, LNCC
Profa. Carla Osthoff Ferreira de Barros, LNCC
Prof. Saulo Ribeiro de Freitas, INPE