MDLText e Indexação Semântica aplicados na Detecção de Spam nos Comentários do YouTube

Muitos usuários do YouTube produzem conteúdo regularmente e fazem desta tarefa seu principal meio de vida. Contudo, esse sucesso vem despertando a atenção de usuários mal-intencionados, que propagam comentários indesejados para se autopromoverem ou para disseminar links maliciosos. Neste cenário, mé...

Full description

Saved in:

Bibliographic Details
Published in	iSys - Brazilian Journal of Information Systems Vol. 10; no. 3; pp. 49 - 73
Main Authors	Silva, Renato Moraes, Alberto, Túlio C., Almeida, Tiago A., Yamakami, Akebo
Format	Journal Article
Language	English
Published	30.09.2017
Online Access	Get full text

Cover

Loading…

More Information
Summary:	Muitos usuários do YouTube produzem conteúdo regularmente e fazem desta tarefa seu principal meio de vida. Contudo, esse sucesso vem despertando a atenção de usuários mal-intencionados, que propagam comentários indesejados para se autopromoverem ou para disseminar links maliciosos. Neste cenário, métodos tradicionais de categorização de texto podem sofrer limitações devido às características inerentes ao problema: (1) os comentários costumam ser curtos e mal redigidos e (2) o problema de classificação é naturalmente online. Este artigo avalia um método de classificação baseado no princípio da descrição mais simples e compara os resultados com os de métodos tradicionais de aprendizado online. Também é proposta uma técnica ensemble, que combina os métodos de classificação com diferentes técnicas de processamento de linguagem natural. Os experimentos foram cuidadosamente realizados e a análise estatística dos resultados indica que a técnica proposta obteve desempenho superior ao obtido quando apenas os comentários originais foram empregados.
ISSN:	1984-2902 1984-2902
DOI:	10.5753/isys.2017.346