аЯрЁБс>ўџ .0ўџџџ-џџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџьЅСq`№ПВbjbjqPqP8(::ВџџџџџџЄмммм№ ‡ юNV$z       $u hн Ž, ŽŽŽ, A rrrŽ~ rŽ rrrќ №пƒj"ем FrђW 0‡ rk Rk rk r€ŽŽrŽŽŽŽŽ, , h ŽŽŽ‡ ŽŽŽŽФммџџџџ Resumo Sistemas de gerъncia de Big Data, em sua maioria, utilizam clusters para processamento massivo paralelo de consultas. As arquiteturas destes sistemas variam. Alguns sistemas gerenciam cada mсquina como sendo um њnico nѓ com disco de dados acoplado ou acesso a um storage compartilhado. Outros sistemas alocam vсrios nѓs em uma mesma mсquina explorando vсrios nњcleos de processamento com fatiamento do recurso de armazenamento para cada nѓ, ou limitam o nњmero de nѓs alocados na mesma mсquina ao nњmero de controladoras de disco que a mсquina possui. Nos casos em que a mсquina possui mais processadores do que controladoras de disco, esses processadores ficam ociosos. Em nossa pesquisa bibliogrсfica nуo encontramos nenhuma estratщgia que explore totalmente os recursos disponэveis de armazenamento e processamento de forma independente em uma mesma mсquina. Dessa forma, as abordagens existentes sуo incapazes de explorar nњcleos ociosos de processadores para atuarem de forma independente no processamento paralelo de operadores da consulta. Neste contexto, esta dissertaчуo investiga o impacto da exploraчуo de arquiteturas multi-core no processamento paralelo de consultas. Isso щ feito por meio do uso de worker nodes, que realizam processamento e nуo armazenam dados, e data nodes, que processam e armazenam dados, alocados em uma mesma mсquina utilizando o mecanismo de execuчуo MyriaX, componente do sistema de gerъncia de Big Data Myria. Executamos e avaliamos dois experimentos (I e II) atacando diferentes pontos cruciais ao desempenho do processamento paralelo de consultas analэticas em cluster utilizando diversas configuraчѕes e alocaчѕes de data nodes e worker nodes (cenсrios). Em ambos os experimentos, o cenсrio Baseline se refere р configuraчуo padrуo de nѓs do MyriaX e os cenсrios Avaliaчуo se referem a configuraчуo de nѓs com adiчуo de worker nodes em uma mesma mсquina. O Experimento I avaliou o processamento de duas consultas diferentes, uma de Auto-junчуo (C1) e outra de Identificaчуo de Triтngulos (C2), sobre uma base de dados da rede social Twitter com grande volume de dados. A partir dos resultados deste experimento, identificamos que cenсrios Avaliaчуo causaram significativa aceleraчуo no tempo de processamento de ambas as consultas, mas hс uma deterioraчуo a partir de um determinado ponto no acrщscimo de worker nodes para a consulta de C2. O Experimento II avaliou o desempenho destes cenсrios no processamento de uma carga de trabalho composta por 11 consultas selecionadas do benchmark TPC-DS. Os resultados deste experimento mostram aceleraчуo na maioria dos cenсrios Avaliaчуo das consultas individuais. Mas, assim como no Experimento I e tambщm para os resultados da carga de trabalho, estes resultados apresentaram uma curva entre melhora e deterioraчуo no tempo de processamento. Os resultados destes experimentos mostram que a caracterэstica da consulta precisa ser levada em conta na escolha do melhor cenсrio de execuчуo, e abre oportunidades para elaboraчуo de heurэsticas que possam ser usadas na geraчуo do plano da consulta e escolher a quantidade de worker nodes que deve ser usada para processar a consulta. Palavras-chave: Big Data, Banco de Dados, Processamento Paralelo, Data Node, Worker Node. Abstract Most of Big Data management systems perform massive parallel query processing on clusters. Their architectures vary. Some systems manage each machine as a single node with local hard disk or shared storage access. Other systems deploy many nodes on the same machine exploring the multi-core approach. On such systems, each node accesses slices of the same storage resource, or the system limits the number of nodes that can be allocated in a machine to the number of disk controllers that machine has. In the cases the machine has more processors than disk controllers, these processors are kept idle (are not allocated as processing nodes). To the best of our knowledge, none of these architectures explore all of the available CPU cores and storage resources independently in the same machine. These systems are then unable to explore CPU cores to process parallel query operators independently. In this dissertation, we investigate the impact of exploring multi-core architectures on query parallel processing. We do this by using worker nodes, which process data but do not store data (that is, they do not have access to a disk), and data nodes, which process and store data, deployed on the same machine using the MyriaX engine of the Myria Big Data Management System. We perform two experiments (I and II) addressing key points in the performance of parallel processing analytical queries on a cluster, using different allocation configurations for worker and data nodes. On both experiments, the Baseline configuration refers to the MyriaX default nodes configuration, and the Avaliaчуo configuration refers to the configuration with additional worker nodes on the same machine. Experiment I evaluates the processing of two queries: a self-join (C1) and a triangles counting (C2), on a large Twitter dataset. From the results of this experiment, we identify that Avaliaчуo configurations achieved speedup on both queries but caused speed down on query C2 after adding a certain amount of worker nodes. Experiment II evaluates the performance of the Baseline and Avaliaчуo configurations to process a workload composed of 11 queries of the TPC-DS benchmark. The results of this experiment show speedup on most of the Avaliaчуo configurations of the single queries. However, like on Experiment I and workload results, these results show a curve with speedup and speed down. The results of these experiments show that the characteristics of the queries need to be taken into consideration when choosing the best execution configuration and opens up opportunities to the development of heuristics that can be used to generate the query plan and choose the amount of worker nodes that should be used. Keywords: Big Data, Database, Parallel Processing, Worker Node, Data Node. BK  q { Ф а   JRƒŽœЭжNZ–3?>G,8ijФХЧа (ц№€ŠЎ№хзхзхзхзхзхзхзхзхзхзхзхзхзхзхзхЩхХЕЂ“““““"hВ}Єhв56CJ]aJmH sH hВ}Єhв5CJaJmH sH %hž'гhв55;CJ\aJmH sH hВ}Є5;CJ\aJmH sH hв5hВ}Єhв55CJ\aJhВ}Єhв56CJ]aJhВ}Єhв5CJaJh­Ihв55;CJ\aJ.gijФХЦЧаbcdБВёхмзмЫёёёхззТБ$„dЄШ`„a$gd49m„`„gd49m $„`„a$gd49mgdЂgZ„`„gdЂgZ „d`„gdЂgZ $„Єh`„a$gd49mВ§ЎБВѕщh49mhв5;mH sH hž'гhв5mH sH 61hP:p49mА‚. АЦA!АЅ"Аm#‰$‰%ААФАФ Ф†œ 666666666666666666666666666666666666666666 6666666666 666666666666 666666666666666666666666666666666666666666666666666666666666666666\@ёџ\ 49mNormal$„Хdh`„Хa$ CJOJQJ_HaJmHsHtH >AђџЁ> 0Fonte parсg. padrуoTiѓџГT 0 Tabela normalі4ж l4жaі ,kєџС, 0 Sem lista BўЂёB 49m0Placeholder Text B*ph€€€В(џџџџg i j Ф Х Ц Ч а bcdБД˜0€€˜0€€˜0€€˜0€€˜0€€˜0€€˜0€€˜0€€˜0€€˜0€€˜0€€˜0€€˜0€€˜0€€ЎВВВџџ _Hlk486942884Texto2Texto4_GoBackz nЏДPЊ ЎЏД‹•q{ФЪЫа tzЊЏˆ–—œЭеNTUZ#*3 9 : ? с ъ , 2 3 8 Б Е З Н О Т ”šЉЎел (ця€‰ДtzОЩ„–5 G ДЧ а ДДх*в5'žРgіa3ќ~A­Iк PЂgZ49mGemGn:mr9O…1ˆ4-ŒсЂВ}Єn­ЬBФž'г4wијя!њЪ}њБДџ@€--|XЫЄЄ--В@@џџUnknownџџџџџџџџџџџџGџ:рAxР џTimes New Roman5€Symbol3& џ:рCxР џArial7&џрџЌ@ŸCalibri"Aˆ№ФЉHSl'рkv‡Гџ *Гџ *№Ѕ‰ДД24ІІ№ќџ(№џ$Pџџџџџџџџџџџџџџџџџџџџџ49m2џџ FRANK WILLIAN RODRIGUES DA SILVA Frank WillianHelioўџр…ŸђљOhЋ‘+'Гй0˜Фашє , L X dpx€ˆф$FRANK WILLIAN RODRIGUES DA SILVAFrank WillianNormalHelio4Microsoft Office Word@Œ†G@pˆ…Ђд@ЫI"еГџўџеЭеœ.“—+,љЎ0 hp|„Œ” œЄЌД М щф* Іц !FRANK WILLIAN RODRIGUES DA SILVA Tэtulo ўџџџўџџџ !"#$ўџџџ&'()*+,ўџџџ§џџџ/ўџџџўџџџўџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџRoot Entryџџџџџџџџ РF@…‰j"е1€1TableџџџџџџџџWordDocumentџџџџџџџџ8(SummaryInformation(џџџџDocumentSummaryInformation8џџџџџџџџџџџџ%CompObjџџџџџџџџџџџџuџџџџџџџџџџџџџџџџџџџџџџџџўџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџўџ џџџџ РF#Documento do Microsoft Office Word MSWordDocWord.Document.8є9Вq