基于特征类别属性分析的文本分类器分类噪声裁剪方法

TP391; 提出一种应用文本特征的类别属性进行文本分类过程中的类别噪声裁剪(Eliminating class noise,ECN)的算法.算法通过分析文本关键特征中蕴含的类别指示信息,主动预测待分类文本可能归属的类别集,从而减少参与决策的分类器数目,降低分类延迟,提高分类精度.在中、英文测试语料上的实验表明,该算法的F值分别达到0.76与0.93,而且分类器运行效率也有明显提升,整体性能较好.进一步的实验表明,此算法的扩展性能较好,结合一定的反馈学习策略,分类性能可进一步提高,其F值可达到0.806与0.943....

Full description

Saved in:
Bibliographic Details
Published in自动化学报 Vol. 33; no. 8; pp. 809 - 816
Main Authors 王强, 关毅, 王晓龙
Format Journal Article
LanguageChinese
Published 哈尔滨工业大学计算机科学与技术学院,哈尔滨,150001 2007
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:TP391; 提出一种应用文本特征的类别属性进行文本分类过程中的类别噪声裁剪(Eliminating class noise,ECN)的算法.算法通过分析文本关键特征中蕴含的类别指示信息,主动预测待分类文本可能归属的类别集,从而减少参与决策的分类器数目,降低分类延迟,提高分类精度.在中、英文测试语料上的实验表明,该算法的F值分别达到0.76与0.93,而且分类器运行效率也有明显提升,整体性能较好.进一步的实验表明,此算法的扩展性能较好,结合一定的反馈学习策略,分类性能可进一步提高,其F值可达到0.806与0.943.
ISSN:0254-4156