Inferência de tópicos para identificação de subáreas temáticas de projetos culturais

Douglas Farias Cordeiro, Nádia Felix Felipe da Silva, Núbia Rosa da Silva, Kátia Kelvis Cassiano

Resumo


Os dados abertos governamentais podem ser vistos como uma importante iniciativa de órgãos e instituições da sociedade civil, voltados à promoção da transparência e permitindo, além disso, sua reutilização como insumo no desenvolvimento de projetos de inovação. Entretanto, é comum que determinados conjuntos de dados demandem a aplicação de tratamentos específicos, para que os mesmos possam ser utilizados de forma mais eficaz, como é o caso da necessidade de classificação destes dados através de Mineração de Dados. Neste cenário, este trabalho apresenta uma proposta de inferência de tópicos automática utilizando o método Latent Dirichlet Allocation para a classificação de projetos culturais em áreas temáticas, por meio da identificação da similaridade entre seus dados. Os resultados apresentados demonstram a viabilidade da abordagem no contexto de dados abertos governamentais.

Palavras-chave


dados abertos governamentais; inferência de tópicos; mineração de dados; projetos culturais

Texto completo:

PDF

Referências


AGGARWAL, C.; ZHAI, C. Mining Text Data. London: Springer Publishing Company, Incorporated, 2012.

ARANHA, C. N. Uma abordagem de pré-processamento automático para mineração de textos em português: sob o enfoque da inteligência computacional. 144p. Tese de Doutorado em Engenharia Elétrica. Pontifícia Universidade Católica do Rio de Janeiro, 2007.

BLEI, D. M., NG A.Y., JORDAN, M. I. Latent Dirichlet Allocation. Journal of Machine Learning Research, 3:993-1022, 2003.

BLEI, D. M. Probabilistic topic models. Commun. ACM, 55(4):77–84, 2012.

CHOLIA, S.; SKINNER, D.; BOVERHOF, J. NEWT: A RESTful service for building High Performance Computing web applications. In: Gateway Computing Environments Workshop (GCE), 1-11, 2010.

DIAS-DA-SILVA, B. C. e Moraes, H. R. A construção de thesaurus eletrônico para o português do Brasil. Alfa , v.47, n.2, p.101 - 115 , 2003.

DAVIES, T. Open Data in Developing Countries – Emerging insights from Phase I. Web Foundation, 2014.

DIETRICH, D., GRAY, J., MCNAMARA, T., POIKOLA, A., TAIT J., POLLOCK, R., ZIJLSTRA, T. Open Data Handbook Documentation Release 1.0.0, Open Knowledge Foundation, 2012.

EBECKEN, N; LOPES, M; COSTA, M. Mineração de Textos, São Paulo: Manole, 2003.

FELDMAN, R., DAGAN, I., Knowledge discovery in textual databases (KDT). In Proceedings of the First International Conference on Knowledge Discovery and Data Mining (KDD-95), Montreal, Canada, August 20-21, AAAI Press, 112-117.

INDA, Infraestrutura Nacional de Dados Abertos. Instrução Normativa nº 4 de 12 de abril de 2012. Disponível em http://dados.gov.br/pagina/instrucao-normativa-da-inda. Acessado em 22 de janeiro de 2018.

JOLLIFFE, I. T. Principal Component Analysis, 2a. ed., NY, USA: Springer, 2002.

Laudon, K.; Laudon, J. Management Information Systems: Managing the Digital Firm. NJ, USA: Pearson, 2011.

Loper, E.; Bird, S. Nltk: The natural language toolkit. In Proceedings of the ACL-02 Workshop on Effective Tools and Methodologies for Teaching Natural Language Processing and Computational Linguistics - Volume 1, ETMTNLP ’02, pages 63–70, Stroudsburg, PA, USA, 2002. Association for Computational Linguistics.

MORAIS, E. A. M., AMBROSIO, A.P.L. Mineração de Textos. Relatório Técnico INF_005/07. Instituto de Informática. Universidade Federal de Goiás, 2007.

OPEN DEFINITION. Open Definition 2.1. 2017. Disponível em http://opendefinition.org/od/2.1/en/. Acessado em 19 de janeiro de 2018.

OPEN KNOWLEDGE FOUNDATION. Open Data Handbook. 2010. Disponível em http://opendatahandbook.org/guide/en/. Acessado em 19 de janeiro de 2018.

RIBEIRO, C. J. S. ; ALMEIDA, R. F. . Dados Abertos Governamentais (Open Government Data): Instrumento para Exercício de Cidadania pela Sociedade. In: XII Enancib - Políticas de Informação para a Sociedade - Anais. Brasília: Thesaurus, 2011, p. 2568-2580.

SALIC, 2016. Disponível em http://novosalic.cultura.gov.br

SIEVERT, C., SHIRLEY, K. E. LDAvis: a method for visualizing and interpreting topics. Proceedings of the Workshop on Interactive Language Learning, Visualization, and Interfaces, p. 63-70, 2014.






Revista Perspectivas em Ciência da Informação
Antonio Carlos, 6627 - Pampulha
31270- 901 - Belo Horizonte -MG
Brasil
Tel: 031) 3409-5227 






A revista Perspectivas em Ciência da Informação está licenciada com uma Licença Creative Commons - Atribuição 4.0 Internacional.
       IET          IBCT - SEER Portal Scielo Capes Periodicos UFMG        Sistema de Bibliotecas UFMG