аЯрЁБс>ўџ 57ўџџџ4џџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџьЅСq`№ПdbjbjqPqP.&::dџџџџџџЄЄЄЄЄЄЄЄИрррр ьИ' Ж        І Ј Ј Ј Ј Ј Ј $н hELЬ Є     Ь ЄЄ  с z z z ъЄ Є І z І z z ЄЄz  Аk7ѓирі Rz І ї 0' z ‘H ‘z ‘Єz ,  z     Ь Ь d    '    ИИИФ|dИИИ|ИИИЄЄЄЄЄЄџџџџ Resumo: A Web de Dados (WoD) tem crescido rсpido e tem como desafio aumentar as interligaчѕes entre entidades de diferentes conjuntos de dados. Quanto mais interligadas, maior o valor intrэnseco da base de conhecimento subjacente, o que permite o desenvolvimento de aplicaчѕes inovadoras. Nos њltimos anos, alщm dos tradicionais Linked Data (LD), novos conjuntos de dados estruturados tъm surgido graчas a anotaчѕes embutidas em pсginas HTML (RDFa, Microdate e Microformat). Junto com os LD, esses novos conjuntos de dados formam uma grande rede de dados centrada em entidades. Os conjuntos de dados atualmente disponэveis ainda tъm um grande e inexplorado potencial de interligaчуo. Tщcnicas de ranqueamento contribuem para essa tarefa classificando conjuntos de dados de acordo com a probabilidade de conter entidades relacionadas com as entidades de um conjunto de dados alvo. Conjuntos ranqueados podem ser manualmente selecionados por usuсrios, para serem utilizados como locais de busca em processos de interligaчуo entre entidades, ou automaticamente inspecionados por programas que percorrem todas as entradas de uma fatia superior do ranque em busca de interligaчѕes. No primeiro caso, usuсrios tipicamente escolhem conjuntos de dados que lhes pareчam mais apropriados entre aqueles melhor posicionados no ranque, tendo pouca propensуo a uma seleчуo de um trecho completo do ranque. Por outro lado, processos automatizados poderiam percorrer todos os conjuntos de dados em uma fatia do ranque. Mщtricas como nDCG capturam melhor a expectativa dos usuсrios de encontrar mais e melhores conjuntos de dados relevantes em posiчѕes mais altas do ranque. Processos automatizados, ao contrсrio, se beneficiariam mais de ranques com taxas de recuperaчуo (recall) melhores ao longo de todo o trecho percorrido. Nesse caso, o Recall at Position k (recall@k) seria uma medida mais adequada para diferenciar o desempenho de diferentes modelos de ranqueamento. Essa dissertaчуo apresenta um estudo de diferentes modelos de ranqueamento e argumenta que algoritmos diferentes poderiam ser utilizados dependendo do ranque ser manual ou automaticamente manipulado. Experimentos indicam que modelos de ranqueamento com melhor nDCG, podem nуo ter melhor recall@k, para nэveis altos dessa medida. Indicam, ainda, que os melhores algoritmos, sob a perspectiva de recall@k, podem encontrar a mesma quantidade de conjuntos de dados relevantes com fatias de ranque 40% menores. Alщm disso, dependendo do conjunto de metadados utilizado para ranqueamento, o nDCG pode sofrer um aumento de 5% a 20%. Palavras-chave: Dados Interligados; Recomendaчуo; Conjuntos de Dados; Ranqueamento; Avaliaчуo Empэrica. Abstract: The Web of Data (WoD) has been growing fast and is facing the challenge of increasing the links between entities from distinct datasets. The more interlinked they are, the greater intrinsic value of their underlying knowledge base will be, which allows the development of more innovative applications. In recent years, in addition to the traditional Linked Data (LD), new structured datasets have emerged, thanks to Web markup annotations (RDFa, Microdata and Microformat) embedded in HTML pages. Along with LD, these new datasets form a large entity-centric Web of Data. Currently available datasets still have a large unexplored potential for interlinking. Ranking techniques contribute to this task by scoring datasets according to the likelihood of finding entities related to those of a target dataset. Ranked datasets can be either manually selected for standalone linking discovery tasks or automatically inspected by programs that would go through the ranking looking for entity links. In the first case, users typically choose datasets that seem more appropriate among those at the top of the ranking, having little tendency for an exhaustive selection over the entire ranking. On the other hand, automated processes would scan all datasets along a whole slice of the top of the ranking. Metrics such as nDCG better capture the degree of adherence of rankings to users expectations of finding most relevant datasets at the very top of the ranking. Automatic processes, on the contrary, would benefit most from rankings that would have greater recall of datasets with related entities throughout the entire slice traversed. In this case, the Recall at Position k would better discriminate ranking models. This dissertation presents empirical comparisons between different ranking models and argues that different algorithms could be used depending on whether the ranking is manually or automatically handled and, also, depending on the available metadata of the datasets. Experiments indicate that ranking algorithms that performed best with nDCG do not always have the best Recall at Position k, for high recall levels. Under the automatic perspective, the best algorithms may find the same number of datasets with related entities by inspecting a slice of the rank at least 40% smaller. Moreover, depending on the set of features used for ranking, nDCG can increase up to 20% or at least 5%. Keywords: Linked Data; entity linking; recommendation; dataset; ranking; empirical evaluation.  /‡ˆš›зйХЧPR Mbcdїѓїѓяѓїѓфмфмфмфамфмфh| Th| T5mH sH h| TmH sH h| Th| TmH sH h>Зh| Th| Th| T5 D E t u ЋЌ ˆ‰Š‹ŒŽš›ийЦЧQR§§ѕѕѕѕѕѕѕ§§§§§§§§§§§§ѕѕѕѕѕѕѕ$a$gd| Tdўd§§,1hА‚. АЦA!АЅ"АЅ#‰$‰%ААФАФ Ф†œ@@ёџ@ NormalCJ_HaJmHsHtH>A@ђџЁ> Fonte parсg. padrуoTi@ѓџГT  Tabela normalі4ж l4жaі ,k@єџС, Sem listad&џџџџ DEtuЋЌ ˆ ‰ Š ‹ Œ  Ž   š › и й Ц Ч QRf˜0€€˜0€€˜0€€˜0€€˜0€€˜0€€˜0€€˜0€€˜0€€˜0€€˜0€€˜0€€˜0€€˜0€€˜0€€˜0€€˜0€€˜0€€˜0€€˜0€€˜0€€˜0€€˜0€€˜0€€˜0€€˜0€€˜0€€˜0€€˜0€€˜0€€š › fKˆ0€Iˆ0€œR ddd JPМРТЫЮйЛЧ‰|‚(.msмтђіw}ПЦсч&,-/08<CœЈъіCI˜ЄАДЫв6 = ’ ˜ Ь е х ё ѕ љ f r Ќ Џ S W Y b g r РФRVЃЇзлfМРђіАДѕ љ ћf3 › fRVfх€F| TrљL>Зџ@€RR-RRRd@@џџUnknownџџџџџџџџџџџџGџ:рAxР џTimes New Roman5€Symbol3& џ:рCxР џArial"qˆ№ФЉнќЁ'хќЁ'/5 $/5 $!№Ѕ‰ДД24ZZ2ƒ№KP)№џ?фџџџџџџџџџџџџџџџџџџџџџ| T2џџResumo:HelioHelioўџр…ŸђљOhЋ‘+'Гй0l˜ЈДФамь ќ ( 4 @LT\dфResumo:HelioNormalHelio1Microsoft Office Word@0@ž`ёёи@Юzѓи/5ўџеЭеœ.“—+,љЎ0№ hp|„Œ” œЄЌД М аф$ Zц Resumo: Tэtulo ўџџџўџџџ !"#ўџџџ%&'()*+ўџџџ-./0123ўџџџ§џџџ6ўџџџўџџџўџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџRoot Entryџџџџџџџџ РFpWJѓи8€Data џџџџџџџџџџџџ1TableџџџџWordDocumentџџџџ.&SummaryInformation(џџџџџџџџџџџџ$DocumentSummaryInformation8џџџџџџџџ,CompObjџџџџџџџџџџџџuџџџџџџџџџџџџўџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџўџ џџџџ РF#Documento do Microsoft Office Word MSWordDocWord.Document.8є9Вq