Uso de sintagmas nominais na classificação automática de documentos eletrônicos

Luiz Cláudio Gomes Maia, Renato Rocha Souza,

Resumo


Esta pesquisa verificou se ocorre aprimoramento na classificação de documentos eletrônicos com o uso de técnicas e algoritmos de mineração de texto (análise de texto) utilizando além das palavras, sintagmas nominais como indexadores. Utilizaram-se duas ferramentas nos experimentos propostos desta pesquisa o OGMA e a WEKA. O OGMA foi desenvolvido pelo autor para automatizar a extração dos sintagmas nominas e o cálculo do peso de cada termo na indexação dos documentos para cada um dos seis métodos propostos. A WEKA foi utilizada analisar os resultados encontrados pelo OGMA utilizando aos algoritmos de agrupamento e classificação, simplekmeans e NaiveBayes, respectivamente, obtendo um valor percentual indicando quantos documentos foram classificados corretamente. Os métodos com melhores resultados foram o de termos sem stopwords e o de sintagmas nominais classificados e pontuados como descritores.

Palavras-chave


análise de texto, agrupamento automático de documentos, indexação automática, sintagmas nominas

Texto completo:

PDF




rodapé PCI
Revista Perspectivas em Ciência da Informação
Antonio Carlos, 6627 - Pampulha
31270- 901 - Belo Horizonte -MG
Brasil
Tel: (31) 3409-5227 





cc
A Revista Perspectivas em Ciência da Informação está licenciada com uma Licença Creative Commons Atribuição-NãoComercial-SemDerivações 4.0 Internacional.
DOAJ           IBCT - SEERCapes       Sistema de Bibliotecas UFMG           ECI- UFMG            Periodicos UFMG       Portal Scielo