Uso de Seleção de Características da Wikipedia na Classificaçao Automatica de Textos / Selection of Wikipedia features for automatic text classification
AUTOR(ES)
Leonel Diógenes Carvalhaes Alvarenga
FONTE
IBICT - Instituto Brasileiro de Informação em Ciência e Tecnologia
DATA DE PUBLICAÇÃO
13/04/2012
RESUMO
Os metodos tradicionais de classicac~ao de textos normalmente representam documentos apenas como um conjunto de palavras, tambem conhecido como BOW (do ingl^es, Bag of Words). Varios estudos t^em mostrado bons resultados ao utilizar-se de tesauros e enciclopedias como fontes externas de informac~oes, objetivando expandir a representac~ao BOW a partir da identicac~ao de relacionamentos de sinonmia e hiponmia entre os termos presentes em uma colec~ao de documentos. Todavia, o processo de expans~ao pode introduzir termos que conduzam a uma classicac~ao err^onea do documento. No presente trabalho, prop~oe-se a aplicac~ao de medidas de avaliac~ao de termos para a selec~ao de caractersticas extradas da Wikipedia, com o objetivo de melhorar a ecacia de sua utilizac~ao durante o processo de expans~ao de documentos. O estudo tambem prop~oe uma medida de selec~ao de caractersticas denominada Fator de Tend^encia a uma Categoria (FT1C), de modo que os experimentos realizados demonstraram que esta medida apresenta desempenho competitivo com as medidas Information Gain, Gain Ratio e Chi-squared, neste processo, apresentando os melhores ganhos de microF1 e macroF1, na maioria dos experimentos realizados. O uso integral das caractersticas selecionadas neste processo, demonstrou auxiliar a classicac~ao de forma mais estavel, ao passo que apresentou menor desempenho ao se restringir sua inserc~ao somente aos documentos das classes em que estas caracter sticas s~ao bem pontuadas pelas medidas de selec~ao. Ao ser aplicada nas colec~oes Reuters-21578, Ohsumed rst-20000 e 20Newsgroups, a abordagem com selec~ao de caractersticas permitiu a reduc~ao da inserc~ao de rudos inerentes do processo de expans~ao e potencializou o uso de hip^onimos, assim como demonstrou que as rela c~oes de sinonmia da Wikipedia tambem podem ser utilizadas na expans~ao de documentos, elevando a ecacia da classicac~ao automatica de textos.
ASSUNTO(S)
recuperaçao de informaçao classificaçao de textos seleçao de caracteristicas expansao de documentos aprendizado de maquina. ciencia da computacao information retrieval text classification feature selection document expansion machine learning.
Documentos Relacionados
- Uso de Seleção de Características da Wikipedia na Classificaçao Automatica de Textos
- Semi-automatic classification of Java components
- AUTOMATIC CLASSIFICATION OF SEMI-STRUCTURED DATA
- Variações do método kNN e suas aplicações na classificação automática de textos
- Variações do método kNN e suas aplicações na classificação automática de textos