аЯрЁБс>ўџ .0ўџџџ-џџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџьЅСq`№ПZ!bjbjqPqP8(::ZџџџџџџЄЌЌЌЌЌЌЌРˆˆˆˆ ” РI .ЌЌЌЌЌЌЌЌШЪЪЪЪЪЪ$w hп JюЌЌЌЌЌЌюЌЌЌЌ ŒŒŒЌ>ЌЌЌЌШŒЌШŒŒЌЌŒЌ  №KhBrlдˆъŽŒД 0I Œ) x ) Œ) ЌŒ(ЌЌŒЌЌЌЌЌюю‚ ЌЌЌI ЌЌЌЌРРРd$dРРР$РРРЌЌЌЌЌЌџџџџ Resumo Experimentos cientэficos de longa duraчуo e que fazem o uso intensivo de dados tъm se tornado cada vez mais comuns. Esses experimentos precisam de mщtodos e ferramentas para agilizar as suas execuчѕes e tambщm para analisar os dados produzidos da forma mais eficiente e transparente possэvel. Nesse contexto, um framework de processamento distribuэdo que tem ganhado notoriedade щ o Apache Spark, capaz de reduzir o gargalo de E/S encontrado em outros competidores do paradigma MapReduce, como o Apache Hadoop. Contudo, o Apache Spark deixa a desejar quanto ao apoio р captura e gerenciamento de proveniъncia, elemento fundamental para reproduzir e avaliar a qualidade de resultados no contexto de experimentos cientэficos. O monitoramento padrуo do Apache Spark informa somente o status das execuчѕes e nуo permite acessar os dados intermediсrios produzidos pelos experimentos. Alщm disso, o Apache Spark tambщm nуo apoia a execuчуo de aplicaчѕes “caixa-preta” externas que se comunicam por meio de arquivos, no sentido de que o framework ignora o conteњdo consumido e produzido por essas aplicaчѕes. Dessa forma, o cientista precisa esperar atщ o final da execuчуo para pesquisar os arquivos gerados pelos seus experimentos e concluir algo sobre os resultados. Esta dissertaчуo apresenta uma soluчуo para estender o Apache Spark e preencher essa lacuna da literatura. Nossa proposta, denominada SAMbA, щ focada na captura e recuperaчуo de dados de proveniъncia prospectiva, retrospectiva e de domэnio. O SAMbA captura automaticamente dados de proveniъncia prospectiva e retrospectiva, alщm de permitir que os cientistas selecionem os atributos de interesse de dados manipulados por aplicaчѕes Apache Spark (ou nativas na linguagem Scala ou programas “caixa-preta” externos) que sуo persistidos na base de proveniъncia como dados de domэnio. A soluчуo tambщm trata da otimizaчуo de aplicaчѕes “caixa-preta” no Apache Spark ao (i) disponibilizar o mѓdulo SAMbA-FS, que atua como um sistema de arquivos em memѓria principal e (ii) usar a ferramenta Git, para armazenar os dados intermediсrios coletados do SAMbA-FS. Portanto, o cientista se encontra habilitado a consultar informaчѕes dos experimentos ao acessar a base de dados de proveniъncia, seja por meio de relatѓrios em tempo de execuчуo (em uma interface web) ou por buscas post-mortem efetuadas por meio da linguagem SQL. Os testes realizados com o SAMbA sobre um estudo de caso real mostram que a soluчуo щ capaz de gerenciar dados de proveniъncia sem adicionar custos significativos ao tempo de execuчуo de experimentos cientэficos. Por њltimo, mas nуo menos importante, discutimos formas alternativas de se consultar dados de domэnio produzidos por experimentos cientэficos, sempre que o usuсrio optar por nуo gerenciс-los diretamente no SAMbA. Comparamos duas abordagens estado da arte para buscas em arquivos sobre dados de domэnio brutos, a saber, (i) PostgresRaw, uma ferramenta para consultas adaptativas, e (ii) FastBit, uma soluчуo baseada em indexaчуo de arquivos, considerando um estudo de caso com mњltiplos arquivos de grande cardinalidade. Os resultados indicaram que consultas adaptativas sуo as mais adequadas para reduzir o tempo-para-consulta nesse contexto. Palavras-chave: Proveniъncia, Spark, Consultas Adaptativas, Workflows Cientэficos. Abstract Long lasting and data-intensive scientific experiments are increasingly drawing attention. Such experiments require methods and tools to (i) speed up their execution, and (ii) analyze the produced data in the most efficiently and transparently way possible. Within this context, Apache Spark is a parallel processing framework that gained notoriety by reducing the I/O bottleneck of other competing frameworks of MapReduce paradigm, e.g., Apache Hadoop. Nevertheless, Apache Spark has limitations on supporting capture and management of provenance data, which is a transparent approach for the replication, reproducibility and quality evaluation of scientific experiments results. Standard Apache Spark monitoring tool only reports execution status so that it does enable the access and visualization of intermediate data produced in the experiments. Additionally, Apache Spark struggles in providing provenance support for the execution of external black-box applications that communicate through files, i.e., the framework ignores the content consumed and produced by those applications. As a result, scientists are expected to wait until the end of the experiment execution for searching the files generated by the experiments and conclude something about the results. In this study, we tackle the lack of provenance support on Apache Spark and reports on a seamless extension of Apache Spark. Our proposal, called SAMbA, is focused on the capture and recovery of prospective and retrospective provenance as well as domain data. SAMbA automatically captures prospective and retrospective provenance information and also enables scientists to select their attributes of interest from data managed by Apache Spark (both native Scala language and external black-box applications) that are be persisted on the provenance database as domain data. Our solution addresses the optimization of blackbox applications in Apache Spark by (i) providing SAMbA-FS module, which acts as an in-memory filesystem, and (ii) using the Git tool for the storage of intermediate data collected from SAMbA-FS. Accordingly, scientists become capable of consulting intermediate data and information about the experiments by accessing the provenance database, which can be achieved by either a web interface or post-mortem queries in SQL statements. We experiment with the SAMbA on a real case study and results indicate our solution is capable of managing the provenance data without adding significant costs to the execution time of scientific experiments. Last, but not least, we discuss alternative strategies for querying domain data produced by scientific experiments whenever users choose to not manage them directly on SAMbA. We compared two state-of-the-art approaches for querying raw domain data files, namely, (i) PostgresRaw, a strategy based on adaptive querying, and (ii) FastBit, a solution based on bitmap indexing, on a case study with multiple and large files. Experimental evaluations indicated adaptive querying is the most suitable strategy for reducing time-to-query. Palavras-chave: Proveniъncia, Spark, Consultas Adaptativas, Workflows Cientэficos. ­Нщѓ  !!Z!ёузШзЙзЅ—ŠШзh|`ђhнPGCJaJh|`ђhнPGCJ^JaJh|`ђhнPG5CJ$\aJ$&hGhнPG5CJ$\^JaJ$mHsHhнPG6CJ]aJmHsHhнPG5CJ\aJmHsHhнPGCJaJmHsHhGCJ^JaJmHsHhнPG5CJ$\aJ$mHsH Ќ­  !!Z!њњѕѕѕњњѕѕѕѕ$a$$a$ Z!ў61hP:pнPGА‚. АЦA!АЅ"АЅ#‰$‰%ААаАа а†œ˜žžžžžžžž666666666vvvvvvvvv666666>666666666666666666666666666Ј6666666666И666666666666hH66666666666666666666666666666666666666666666666666666666666666666А6H@ёџH Normal OJQJ^J_HmH nHsH tH>AђџЁ> 0Fonte parсg. padrуoTiѓџГT 0 Tabela normalі4ж l4жaі ,kєџС, 0 Sem lista Z(џџџџЌ ­  \˜0€€˜0€€˜0€€˜0€€˜0€€˜0€€˜0€€Iˆ0Iˆ0Iˆ0Iˆ0\Iˆ0РKˆ0РIˆ0x0Z!Z!Z!@IŽ“цяџ§Œ‘Ђ5:}‚ъяЎГЭ↋ЋГђє AI  o t ї ќ l w Ї Љ Ћ В ˆ › Ы а щ ђ • – ЈБЩЯ•š Ыаks•–ЂЇЮиэ№*/8=šŸњћ§:A%*CL\^zЖОцяЎАБЛ}‚ъяЋАo t C Y ' \\\хGнPG|`ђ1+}N\џ@€игˆZ€@џџUnknownџџџџџџџџџџџџGџ:рAxР џTimes New Roman5€Symbol3& џ:рCxР џArial?†(SimSunЫЮЬх7&џрџЌ@ŸCalibri"AˆЄЉЂТjgѓЪj‡іd -іd -й’.!),.:;?]_}ЈЗЧЩ    & 6"0000 0 0 00000џџџ џ џџџџџ=џ@џ\џ]џ^џрџ([_{З  0 0 00000џџ;џ[џсџхџЅ‰Дœ24NNРќџ(№џ$Pџџџџџџџџџџџџџџџџџџџџџ1+}N2џџResumothaylHelioўџр…ŸђљOhЋ‘+'Гй0l˜ЈДФамь ќ ( 4 @LT\dфResumothaylNormalHelio3Microsoft Office Word@FУ#@І8žkд@тЫ$rlдіdўџеЭеœ.“—+,љЎDеЭеœ.“—+,љЎ4№ hp|„Œ” œЄЌД М Яф- Nц Resumo Tэtulod ?GKSOProductBuildVerф1033-10.2.0.7480 ўџџџўџџџ !"#$ўџџџ&'()*+,ўџџџ§џџџ/ўџџџўџџџўџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџRoot Entryџџџџџџџџ РF№МjBrlд1€1TableџџџџџџџџWordDocumentџџџџџџџџ8(SummaryInformation(џџџџDocumentSummaryInformation8џџџџџџџџџџџџ%CompObjџџџџџџџџџџџџuџџџџџџџџџџџџџџџџџџџџџџџџўџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџўџ џџџџ РF#Documento do Microsoft Office Word MSWordDocWord.Document.8є9Вq