Uso de Seleção de Características da Wikipedia na Classificaçao Automatica de Textos / Selection of Wikipedia features for automatic text classification

Leonel Diógenes Carvalhaes Alvarenga

Os metodos tradicionais de classicac~ao de textos normalmente representam documentos apenas como um conjunto de palavras, tambem conhecido como BOW (do ingl^es, Bag of Words). Varios estudos t^em mostrado bons resultados ao utilizar-se de tesauros e enciclopedias como fontes externas de informac~oes, objetivando expandir a representac~ao BOW a partir da identicac~ao de relacionamentos de sinonmia e hiponmia entre os termos presentes em uma colec~ao de documentos. Todavia, o processo de expans~ao pode introduzir termos que conduzam a uma classicac~ao err^onea do documento. No presente trabalho, prop~oe-se a aplicac~ao de medidas de avaliac~ao de termos para a selec~ao de caractersticas extradas da Wikipedia, com o objetivo de melhorar a ecacia de sua utilizac~ao durante o processo de expans~ao de documentos. O estudo tambem prop~oe uma medida de selec~ao de caractersticas denominada Fator de Tend^encia a uma Categoria (FT1C), de modo que os experimentos realizados demonstraram que esta medida apresenta desempenho competitivo com as medidas Information Gain, Gain Ratio e Chi-squared, neste processo, apresentando os melhores ganhos de microF1 e macroF1, na maioria dos experimentos realizados. O uso integral das caractersticas selecionadas neste processo, demonstrou auxiliar a classicac~ao de forma mais estavel, ao passo que apresentou menor desempenho ao se restringir sua inserc~ao somente aos documentos das classes em que estas caracter sticas s~ao bem pontuadas pelas medidas de selec~ao. Ao ser aplicada nas colec~oes Reuters-21578, Ohsumed rst-20000 e 20Newsgroups, a abordagem com selec~ao de caractersticas permitiu a reduc~ao da inserc~ao de rudos inerentes do processo de expans~ao e potencializou o uso de hip^onimos, assim como demonstrou que as rela c~oes de sinonmia da Wikipedia tambem podem ser utilizadas na expans~ao de documentos, elevando a ecacia da classicac~ao automatica de textos.

Uso de Seleção de Características da Wikipedia na Classificaçao Automatica de Textos / Selection of Wikipedia features for automatic text classification

AUTOR(ES)

FONTE

DATA DE PUBLICAÇÃO

RESUMO

ASSUNTO(S)

ACESSO AO ARTIGO

Documentos Relacionados