新浪微博反垃圾中特征选择的重要性分析

TP391; 微博中的垃圾用户非常普遍,其异常行为及生产的垃圾信息显著降低了用户体验.为了提高识别准确率,已有研究或是尽可能多地定义特征,或是不断尝试提出新的分类检测方法;那么,微博反垃圾问题的突破点优先置于寻找分类特征还是改进分类检测方法,是否特征越多检测效果越好,新的方法是否可以显著提高检测效果.以新浪微博为例,试图通过不同的特征选择方法与不同的分类器组合实验回答以上问题,实验结果表明特征组的选择较分类器的改进更为重要,需从内容信息、用户行为和社会关系多侧面生成特征,且特征并非越多检测效果越好,这些结论将有助于未来微博反垃圾工作的突破....

Full description

Saved in:
Bibliographic Details
Published in通信学报 Vol. 37; no. 8; pp. 24 - 33
Main Authors 张宇翔, 孙菀, 杨家海, 周达磊, 孟祥飞, 肖春景
Format Journal Article
LanguageChinese
Published 中国民航大学计算机科学与技术学院,天津300300 2016
清华信息科学与技术国家实验室,北京100084%中国民航大学计算机科学与技术学院,天津,300300%清华大学网络科学与网络空间研究院,北京100084
清华大学网络科学与网络空间研究院,北京100084
清华信息科学与技术国家实验室,北京100084%北京邮电大学网络技术研究院,北京,100876%北京航空航天大学虚拟现实技术与系统国家重点实验室,北京,100876
Subjects
Online AccessGet full text
ISSN1000-436X
DOI10.11959/j.issn.1000-436x.2016152

Cover

More Information
Summary:TP391; 微博中的垃圾用户非常普遍,其异常行为及生产的垃圾信息显著降低了用户体验.为了提高识别准确率,已有研究或是尽可能多地定义特征,或是不断尝试提出新的分类检测方法;那么,微博反垃圾问题的突破点优先置于寻找分类特征还是改进分类检测方法,是否特征越多检测效果越好,新的方法是否可以显著提高检测效果.以新浪微博为例,试图通过不同的特征选择方法与不同的分类器组合实验回答以上问题,实验结果表明特征组的选择较分类器的改进更为重要,需从内容信息、用户行为和社会关系多侧面生成特征,且特征并非越多检测效果越好,这些结论将有助于未来微博反垃圾工作的突破.
ISSN:1000-436X
DOI:10.11959/j.issn.1000-436x.2016152