ࡱ> *,)bjbjUU >?? ||  +------"--B++pz@X0,--| :Resumo: Esta dissertao apresenta uma nova representao de texto em forma de tensores baseadas em tcnicas de compresso de informao que assinalam cdigos mais curtos aos caracteres mais frequentemente utilizados. Esta representao independente de linguagem, no necessita de pr-treinamento e produz cdigos sem perda de informao. Adaptada para se aproveitar da morfologia das palavras, capaz de representar prefixos, conjugaes e inflexes com vetores similares, sendo capaz de representar mesmo palavras no constantes no conjunto de textos treinamento. Por ser compacta, porm esparsa, ideal para acelerar os tempos de treinamento utilizando-se de bibliotecas de processamento tensorial. Como parte deste trabalho de pesquisa, mostramos que esta tcnica especialmente eficiente se utilizada em conjunto com Redes Neurais de Convoluo (CNN) para classificao de textos no nvel do caractere. Resultados experimentais mostram que ela reduz drasticamente o nmero de parmetros a serem analisados, resultando em uma acurcia de classificao competitiva em apenas uma frao do tempo que seria gasto em representaes um por linha, possibilitando treinamento em equipamentos mais simples. Palavras-chave: classificao de textos, codificao de palavras, redes neurais profundas. Abstract: This dissertation puts forward a new text to tensor representation that relies on information compression techniques to assign shorter codes to the most frequently used characters. This representation is language-independent with no need of pre-training and produces an encoding with no information loss. It provides an adequate description of the morphology of text, as it can represent prefixes, declensions, and inflections with similar vectors and are able to represent even unseen words on the training dataset. Similarly, as it is compact yet sparse, is ideal for speed up training times using tensor processing libraries. As part of this research, we show that this technique is especially e_ective when coupled with convolutional neural networks (CNNs) for text classification at character-level. Experimental results show that it drastically reduces the number of parameters to be optimized, resulting in competitive classification accuracy values in only a fraction of the time spent by one-hot encoding representations, thus enabling training in commodity hardware. Keywords: text classification, word embedding, word encoding, deep pyramidal network.    U^îî(hPth9CJOJQJ^JaJmH sH .hPth95CJOJQJ\^JaJmH sH  hPth9CJOJQJ^JaJ&hPth95CJOJQJ\^JaJ   TU$a$gdPt $7$8$H$a$gdPt<P1h:p9. A!"#$% Dp^ 666666666vvvvvvvvv666666>6666666666666666666666666666666666666666666666666hH6666666666666666666666666666666666666666666666666666666666666666662 0@P`p2( 0@P`p 0@P`p 0@P`p 0@P`p 0@P`p 0@P`p8XV~_HmHnHsHtH@`@ NormalCJ_HaJmHsHtHDA D 0Default Paragraph FontRiR 0 Table Normal4 l4a (k ( 0No List PK![Content_Types].xmlj0Eжr(΢Iw},-j4 wP-t#bΙ{UTU^hd}㨫)*1P' ^W0)T9<l#$yi};~@(Hu* Dנz/0ǰ $ X3aZ,D0j~3߶b~i>3\`?/[G\!-Rk.sԻ..a濭?PK!֧6 _rels/.relsj0 }Q%v/C/}(h"O = C?hv=Ʌ%[xp{۵_Pѣ<1H0ORBdJE4b$q_6LR7`0̞O,En7Lib/SeеPK!kytheme/theme/themeManager.xml M @}w7c(EbˮCAǠҟ7՛K Y, e.|,H,lxɴIsQ}#Ր ֵ+!,^$j=GW)E+& 8PK!Ptheme/theme/theme1.xmlYOo6w toc'vuر-MniP@I}úama[إ4:lЯGRX^6؊>$ !)O^rC$y@/yH*񄴽)޵߻UDb`}"qۋJחX^)I`nEp)liV[]1M<OP6r=zgbIguSebORD۫qu gZo~ٺlAplxpT0+[}`jzAV2Fi@qv֬5\|ʜ̭NleXdsjcs7f W+Ն7`g ȘJj|h(KD- dXiJ؇(x$( :;˹! I_TS 1?E??ZBΪmU/?~xY'y5g&΋/ɋ>GMGeD3Vq%'#q$8K)fw9:ĵ x}rxwr:\TZaG*y8IjbRc|XŻǿI u3KGnD1NIBs RuK>V.EL+M2#'fi ~V vl{u8zH *:(W☕ ~JTe\O*tHGHY}KNP*ݾ˦TѼ9/#A7qZ$*c?qUnwN%Oi4 =3ڗP 1Pm \\9Mؓ2aD];Yt\[x]}Wr|]g- eW )6-rCSj id DЇAΜIqbJ#x꺃 6k#ASh&ʌt(Q%p%m&]caSl=X\P1Mh9MVdDAaVB[݈fJíP|8 քAV^f Hn- "d>znNJ ة>b&2vKyϼD:,AGm\nziÙ.uχYC6OMf3or$5NHT[XF64T,ќM0E)`#5XY`פ;%1U٥m;R>QD DcpU'&LE/pm%]8firS4d 7y\`JnίI R3U~7+׸#m qBiDi*L69mY&iHE=(K&N!V.KeLDĕ{D vEꦚdeNƟe(MN9ߜR6&3(a/DUz<{ˊYȳV)9Z[4^n5!J?Q3eBoCM m<.vpIYfZY_p[=al-Y}Nc͙ŋ4vfavl'SA8|*u{-ߟ0%M07%<ҍPK! ѐ'theme/theme/_rels/themeManager.xml.relsM 0wooӺ&݈Э5 6?$Q ,.aic21h:qm@RN;d`o7gK(M&$R(.1r'JЊT8V"AȻHu}|$b{P8g/]QAsم(#L[PK-![Content_Types].xmlPK-!֧6 +_rels/.relsPK-!kytheme/theme/themeManager.xmlPK-!Ptheme/theme/theme1.xmlPK-! ѐ' theme/theme/_rels/themeManager.xml.relsPK]   9rL>Pt @ @@UnknownG*Ax Times New Roman5Symbol3. *Cx ArialACambria Math"hh)!0$P Pt!xxResumo: Esta dissertao apresenta uma nova representao de texto em forma de tensores baseadas em tcnicas de compresso de informao que assinalam cdigos mais curtos aos caracteres mais frequentemente utilizadosHelioHelioOh+'0L|    ,4<DResumo: Esta dissertao apresenta uma nova representao de texto em forma de tensores baseadas em tcnicas de compresso de informao que assinalam cdigos mais curtos aos caracteres mais frequentemente utilizadosHelioNormal_WordconvHelio1Microsoft Office Outlook@ @@@s@)՜.+,0 hp|   Resumo: Esta dissertao apresenta uma nova representao de texto em forma de tensores baseadas em tcnicas de compresso de informao que assinalam cdigos mais curtos aos caracteres mais frequentemente utilizados Title  "#$%&'(+Root Entry F`=z@-1Table WordDocument>SummaryInformation(DocumentSummaryInformation8!CompObjy  F'Microsoft Office Word 97-2003 Document MSWordDocWord.Document.89q  F#Documento do Microsoft Office Word MSWordDocWord.Document.89q