Defesa de Dissertação de Mestrado de Arthur de Oliveira Paiva, 14h, na sala 204 do Instituto de Computação

An Analysis of the Provenance Meaningfulness and Provenance Capture Overhead of no Workflow       

 

Resumo:

 

Proveniência rastreia a origem de algo e toda sua história. Portanto, é possível registrar a proveniência de experimentos científicos. Porém, a proveniência de um experimento científico é complexa à medida que o experimento evolui. Isso se exacerba por causa dos dados e artefatos produzidos por ele, os quais têm sua própria proveniência. Adicionalmente, experimentos in silico são complexos e intensivos em dados, tornando mais difícil rastrear e/ou consultar as grandes quantidades de proveniência que eles geram. Apesar de sua complexidade, rastrear a proveniência de um experimento ajuda a confirmar ou refutar a hipótese experimental, mas isso requer que o cientista tenha acesso para analisar os dados de proveniência que foram capturados durante a execução do experimento.

 

Existem muitas ferramentas para capturar proveniência de experimentos científicos. Nessa dissertação, nós desenvolvemos em cima de uma ferramenta já existente chamada noWorkflow, a qual captura proveniência de experimentos escritos em Python. Nós focamos na análise de proveniência ao introduzir várias funcionalidades na ferramenta de análise do noWorkflow chamada now vis. Em particular, nós adicionamos a possibilidade do usuário consultar o banco de dados de proveniência em SQL ou Prolog usando a interface gráfica, ver a diferença entre funções, gerar diferentes tipos de dataflows, gerar um dataflow apenas do que derivou uma evaluation, excluir parte de um dataflow, baixar os dataflows gerados, recuperar um trial ou um arquivo específico, ver a proveniência no formato PROV, fazer pull e push de proveniência de servidores (remotes) e editar e remover remotes. Para avaliar nossa abordagem, usamos as perguntas do First Provenance Challenge. Primeiro, nós as traduzimos para que elas possam ser aplicadas a qualquer script em vez de um dataflow específico. Depois, nós executamos um script com noWorkflow e usamos nossas extensões para responder às questões. Nós conseguimos responder a todas as perguntas, menos duas.

 

Abstract:

 

Provenance tracks the origin of something and all of its history. Thus, it’s possible to record the provenance of scientific experiments. However, a scientific experiment’s provenance is complex as the experiment evolves. This exacerbates due to the data and artifacts produced by it, which have their own provenance. Additionally, in silico experiments are complex and data-intensive, making it harder to track and/or query the large amounts of provenance they generate. Despite its complexity, tracking an experiment’s provenance helps to confirm or refute the experimental hypothesis, but this requires the scientist to have access to analyze the provenance data that was captured during the experiment execution. 

 

There are several tools to capture provenance from scientific experiments. In this dissertation, we build on an existing tool called noWorkflow, which captures provenance of experiments written in Python. We focus on provenance analysis by introducing several functionalities to the noWorkflow analysis tool called now vis. In particular, we add the possibility for the user to query the provenance database in SQL or Prolog using the graphical interface, see the diff of functions, generate different types of dataflows, generate a dataflow of only what derived an evaluation, exclude part of a dataflow, download the generated dataflows, restore a trial or a specific file, see the provenance in the PROV format, pull and push provenance from servers (remotes), and edit and delete remotes. To evaluate our approach, we used the questions in the First Provenance Challenge. First, we translate them so they can be applied to any script rather than a specific workflow. Then, we ran a script with noWorkflow and used our extensions to answer the questions. We were able to answer all of the questions but two.

 

Banca  examinadora:

 

Prof. João Felipe Nicolaci Pimentel, UFF

Profa. Vanessa Braganholo Murta, UFF

Prof. Daniel Cardoso Moraes de Oliveira, UFF

Profa. Marta Lima de Queirós Mattoso, UFRJ

Related Posts

Leave a Reply