ࡱ> 241bjbjUU D$??SSSSSgggg s gSSSSSҜg0S$ :Ttulo: Minerao de Opinies: Um Classificador Ternrio ou Dois Binrios? Resumo Com a popularidade da Web e das redes sociais, as pessoas tm compartilhado cada vez mais suas opinies sobre diferentes tpicos de interesse como produtos e polticos, por exemplo. Devido a esse fato, diversas empresas e instituies monitoram o contedo publicado pelos usurios de redes sociais, como o Twitter, com o objetivo de identificar opinies a respeito dos seus tpicos de interesse. Entretanto, buscar opinies de forma manual e identific-las como sendo favorveis a um determinado tpico pode se tornar uma tarefa impraticvel devido grande quantidade de mensagens publicadas diariamente. Nesse contexto, a minerao de opinies, tambm conhecida como anlise de sentimentos, a rea que avalia automaticamente as opinies e sentimentos, expressos em formato textual, a respeito de um determinado tpico de interesse. Ao avaliar automaticamente as opinies reportadas textualmente, a minerao de opinies tem como objetivo identificar textos que contm opinies e classific-las quanto s suas polaridades, ou seja, se so opinies positivas ou negativas. Com esse propsito, existem duas abordagens de classificao na minerao de opinies. A primeira, chamada abordagem de classificao ternria, consiste em classificar os textos como positivos, negativos ou neutros (textos sem opinio ou objetivos), em apenas uma etapa. A segunda abordagem, chamada abordagem de classificao duobinria, realiza primeiramente a classificao de subjetividade, que consiste em detectar se os textos contm opinies (textos subjetivos) ou se contm fatos, notcias ou informaes que no caracterizam opinies (textos objetivos) e, posteriormente, a classificao de polaridade, que consiste em classificar textos subjetivos quanto s suas polaridades, ou seja, positivas ou negativas. Apesar de as abordagens de classificao ternria e duobinria serem amplamente adotadas em muitos trabalhos que exploram a minerao de opinies, nenhum estudo foi encontrado com o objetivo de investigar e comparar o desempenho das duas abordagens de forma ampla e conclusiva na minerao de opinies em tweets. Nesse contexto, este trabalho apresenta uma comparao criteriosa entre as abordagens de classificao ternria e duobinria na minerao de opinies em tweets. O objetivo dessa comparao responder questo de pesquisa identificada e discutida nesta dissertao: na minerao de opinies em tweets, qual abordagem obtm o melhor desempenho: a abordagem ternria ou a abordagem duobinria? A fim de comparar as abordagens, diferentes algoritmos de aprendizado de mquina e mtodos de pr-processamento textual distintos foram utilizados nos experimentos computacionais. De acordo com os resultados obtidos, utilizando-se um conjunto de 12 bases de dados de tweets, a abordagem de classificao ternria se mostrou mais apropriada para a grande maioria das situaes testadas. Palavras-chave: minerao de opinies; anlise de sentimentos; classificao de subjetividade; classificao de polaridade; abordagem de classificao ternria; abordagem de classificao duobinria; tweets. Abstract As the Web and the social networks become more popular, internet users are increasingly sharing their opinions on different subjects, such as products, events, and people. Due to this fact, several companies and institutions are watching the content published by users of social networks, such as Twitter, in order to identify opinions and get feedback on any subject. However, since many opinions are being published every day, manually searching for opinions and identifying them as being appropriate to a particular subject may be unpractical. In this context, opinion mining, also called sentiment analysis, is the task of automatically detecting, extracting, and classifying opinions on a particular subject. The goal of opinion mining is to identify the opinion expressed on textual data and evaluate its polarity, i.e., whether it is a positive or negative opinion. For this purpose, regarding supervised machine learning methods, there are two main approaches for the task of opinion mining. The first one is called ternary classification approach and it consists of classifying the opinion expressed on textual data, such as tweets, as being positive, negative or neutral in one step only. The second approach, called double-binary classification approach in this dissertation, aims at classifying the opinion expressed on textual data in two steps. The first step consists in subjectivity classification, which is the task of detecting whether documents contain facts (objective documents) or opinions (subjective documents). Then, in the second step, the polarity of the opinion expressed on the documents early classified as being subjectives are evaluated. Although the ternary and double-binary classification approaches have been widely applied in opinion mining, to the best of our knowledge there is no comprehensive and conclusive study in the literature that explores and compares the performance of these two approaches regarding the opinion expressed on tweets. In this context, this dissertation presents a comprehensive comparison of these two approaches in order to answer the following research question: regarding opinion mining of tweets, which approach gives the best performance: the ternary classification approach or the double-binary one? In order to answer this question, in this work, the ternary and double-binary approaches are compared using different machine learning methods, as well as distinct textual preprocessing techniques commonly applied in opinion mining of tweets. The results of this comparison show that the ternary classification approach is the most appropriate one for the most of the assessed situations, using a set of 12 Twitter datasets. Keywords: opinion mining; sentiment analysis; subjectivity classification; polarity classification; ternary classification approach; double-binary classification approach; tweets. JLRTjnUW)/$*djkx op㍂tlllh3mH sH hKh35\mH sH hKh3mH sH .hKh35CJOJQJ\^JaJmH sH h36OJQJ]^Jh35OJQJ\^Jh3OJQJ^Jh35\^J h35CJOJQJ\^JaJ h3^Jh3OJQJ^Jh35OJQJ\^J"KLSTVWlmnopqrstuvwx   $a$$a$BP0pf18:p3. A!n"n#n$n% Dp^ 666666666vvvvvvvvv66666686666666666666666666666666666666666666666666666666hH6666666666666666666666666666666666666666666666666666666666666666662 0@P`p2( 0@P`p 0@P`p 0@P`p 0@P`p 0@P`p 0@P`p8XV~_HmHnHsHtH^`^ Normal*$1$0CJKHOJPJQJ^J_HaJmHnHsHtHDA D 0Default Paragraph FontRiR 0 Table Normal4 l4a (k ( 0No List NN 0Ttulo1 $xCJOJPJ QJ^JaJ8B8 0 Body Text d X/X 0Body Text Char$CJKHOJPJQJ^JaJnHtH$/"$ 0List<"2< 0Caption  $xx6],B, 0ndice $PK![Content_Types].xmlj0Eжr(΢Iw},-j4 wP-t#bΙ{UTU^hd}㨫)*1P' ^W0)T9<l#$yi};~@(Hu* Dנz/0ǰ $ X3aZ,D0j~3߶b~i>3\`?/[G\!-Rk.sԻ..a濭?PK!֧6 _rels/.relsj0 }Q%v/C/}(h"O = C?hv=Ʌ%[xp{۵_Pѣ<1H0ORBdJE4b$q_6LR7`0̞O,En7Lib/SeеPK!kytheme/theme/themeManager.xml M @}w7c(EbˮCAǠҟ7՛K Y, e.|,H,lxɴIsQ}#Ր ֵ+!,^$j=GW)E+& 8PK!Ptheme/theme/theme1.xmlYOo6w toc'vuر-MniP@I}úama[إ4:lЯGRX^6؊>$ !)O^rC$y@/yH*񄴽)޵߻UDb`}"qۋJחX^)I`nEp)liV[]1M<OP6r=zgbIguSebORD۫qu gZo~ٺlAplxpT0+[}`jzAV2Fi@qv֬5\|ʜ̭NleXdsjcs7f W+Ն7`g ȘJj|h(KD- dXiJ؇(x$( :;˹! I_TS 1?E??ZBΪmU/?~xY'y5g&΋/ɋ>GMGeD3Vq%'#q$8K)fw9:ĵ x}rxwr:\TZaG*y8IjbRc|XŻǿI u3KGnD1NIBs RuK>V.EL+M2#'fi ~V vl{u8zH *:(W☕ ~JTe\O*tHGHY}KNP*ݾ˦TѼ9/#A7qZ$*c?qUnwN%Oi4 =3ڗP 1Pm \\9Mؓ2aD];Yt\[x]}Wr|]g- eW )6-rCSj id DЇAΜIqbJ#x꺃 6k#ASh&ʌt(Q%p%m&]caSl=X\P1Mh9MVdDAaVB[݈fJíP|8 քAV^f Hn- "d>znNJ ة>b&2vKyϼD:,AGm\nziÙ.uχYC6OMf3or$5NHT[XF64T,ќM0E)`#5XY`פ;%1U٥m;R>QD DcpU'&LE/pm%]8firS4d 7y\`JnίI R3U~7+׸#m qBiDi*L69mY&iHE=(K&N!V.KeLDĕ{D vEꦚdeNƟe(MN9ߜR6&3(a/DUz<{ˊYȳV)9Z[4^n5!J?Q3eBoCM m<.vpIYfZY_p[=al-Y}Nc͙ŋ4vfavl'SA8|*u{-ߟ0%M07%<ҍPK! ѐ'theme/theme/_rels/themeManager.xml.relsM 0wooӺ&݈Э5 6?$Q ,.aic21h:qm@RN;d`o7gK(M&$R(.1r'JЊT8V"AȻHu}|$b{P8g/]QAsم(#L[PK-![Content_Types].xmlPK-!֧6 +_rels/.relsPK-!kytheme/theme/themeManager.xmlPK-!Ptheme/theme/theme1.xmlPK-! ѐ' theme/theme/_rels/themeManager.xml.relsPK] $K3Hk@@@Unknown G*Ax Times New Roman5Symbol3" ArialOF16Times New RomanOF43Times New RomanOF47Times New RomanI xP!Liberation Serif?(SimSunG& xP!Liberation SansG.R<(Microsoft YaHeiACambria Math" 3R'3R'  0 $PHk! xxITtulo: Minerao de Opinies: Um Classificador Ternrio ou Dois BinriosHelioHelioOh+'0 8 HT x  LTtulo: Minerao de Opinies: Um Classificador Ternrio ou Dois BinriosHelioNormal_WordconvHelio3Microsoft Office Outlook@Ik@6D@ϯ ՜.+,00 hp|   JTtulo: Minerao de Opinies: Um Classificador Ternrio ou Dois Binrios Title  "#$%&'(*+,-./03Root Entry FNҜ51TableWordDocumentD$SummaryInformation(!DocumentSummaryInformation8)CompObjy  F'Microsoft Office Word 97-2003 Document MSWordDocWord.Document.89q  F#Documento do Microsoft Office Word MSWordDocWord.Document.89q