Defesa de Tese de Doutorado de Luiz Gustavo Dias, em 07/03/2024, às 14:00 horas, por videoconferência

Defesa de Tese de Doutorado de Luiz Gustavo Dias, em 07/03/2024, às 14:00 horas, por videoconferência

 

Link para defesa: https://meet.google.com/vmd-cfsp-ptn

 


MAESTRO: Uma Abordagem para Gerência de Experimentos Científicos Apoiada por Ontologias e Dados de Proveniência

Resumo:

 

Nas últimas décadas houve um rápido crescimento no número de experimentos científicos implementados como simulações computacionais. Esses experimentos normalmente consistem em múltiplas etapas, onde diferentes programas, scripts ou serviços podem ser usados como implementadores. Os workflows científicos vêm sendo utilizados nesse contexto pois servem como uma abstração para modelar experimentos e podem ser implementados de várias maneiras, com diferentes programas ou linguagens de scripts como Python. Embora os scripts ofereçam aos usuários a flexibilidade de compor workflows científicos com construções e estruturas de dados complexas, eles normalmente representam workflows isolados em vez de abranger todo o experimento. Isso porque dentro de um mesmo experimento, os usuários podem explorar diferentes configurações para confirmar ou refutar suas hipóteses, levando à execução de diferentes (mas associados) workflows científicos. Compor e analisar experimentos científicos associados a múltiplos workflows científicos implementados como scripts é uma tarefa complexa e importante. Isso porque escolhas errôneas durante a composição podem levar a diversos tipos de inconsistências, como incompatibilidade de formatos e problemas nas dependências entre scripts. Além disso, mesmo com um script bem especificado e executado corretamente, analisar os dados produzidos a partir de um workflow isolado sem o conhecimento da estrutura do experimento, dos termos do domínio e das especificações pode ser um desafio. Nesta tese é apresentado o MAESTRO, um framework baseado no uso de ontologias e proveniência para auxiliar na composição e análise de experimentos implementados por meio de scripts. MAESTRO integra o conceito de Linhas de Experimento para representar o workflow em um nível abstrato e emprega raciocinadores para criar workflows derivados utilizando a representação abstrata do experimento e para apoiar consultas analíticas. A viabilidade do MAESTRO foi avaliada através de um estudo no domínio da bioinformática, recebendo feedback positivo de especialistas em e-science.

 

Abstract:

 

Over the last decades, there has been a rapid growth in the number of scientific experiments implemented as computational simulations. These experiments typically consist of multiple steps, where different programs, in-house scripts, or services may be used at each step. Workflows have served as an abstraction to model such experiments, and such workflows can be implemented in various ways, with many users choosing scripting languages like Python. Although scripts offer users the flexibility to compose workflows with complex constructs and data structures, they typically represent isolated workflows rather than encompassing the entire experiment. Within the same experiment, users may explore different configurations to confirm or refute their hypotheses, leading to the execution of different (but associated) workflows. Composing and analyzing scientific experiments associated with multiple workflows implemented as scripts is an open, yet important, task. Poor choices during composition can lead to inconsistencies, such as format incompatibility and problems in script dependencies. Moreover, even with a well-specified and properly executed script, analyzing the data produced from an isolated workflow without knowledge of the experiment’s structure, domain terms, and specifications can be challenging. In this thesis is shown MAESTRO, a lightweight framework based on the use of ontologies and provenance to assist in the composition and analysis of experiments implemented using scripts. MAESTRO integrates the concept of Experiment Lines to represent the workflow at an abstract level and employs reasoners to derive a script-based workflow based on the abstract experiment representation and to support analytical queries. The feasibility of MAESTRO was evaluated through a study in the bioinformatics domain, receiving positive feedback from experts in e-science.

Banca  examinadora:

 

Prof. Daniel Cardoso Moraes de Oliveira, UFF – Presidente

Prof. Bruno Lopes Vieira, UFF

Profa. Aline Marins Paes Carvalho, UFF

Prof. Mario Roberto Folhadela Benevides, UFF

Prof. Marta Lima de Queirós Mattoso, UFRJ

Prof. Victor Ströele de Andrade Menezes, UFJF

Related Posts

Leave a Reply