结合人工蜂群与K-means聚类的特征选择

TP391; K-means聚类是一种简捷高效、收敛速度快且易于实现的统计分析方法,但是传统的K-means聚类算法对初始聚类中心的选取敏感且易陷入局部最优,同时多数无监督特征选择算法容易忽视特征之间的联系.为此,提出了一种结合人工蜂群与K-means聚类的特征选择方法.首先,为了使同一簇中样本的相似度高而不同簇中样本的相似度低,基于簇内聚集度和簇间离散度构建了新的适应度函数,更好地反映各样本的特性,进而构建了蜜源被选择新的概率表达式;其次,设计了随着迭代次数的增加而数值逐渐减小的权重,提出了使蜂群搜索范围动态缩进的蜜源位置更新表达式;然后,为了弥补传统的欧氏距离在计算距离时仅考虑向量之间的累...

Full description

Saved in:

Bibliographic Details
Published in	计算机科学与探索 Vol. 18; no. 1; pp. 93 - 110
Main Authors	孙林, 刘梦含, 薛占熬
Format	Journal Article
Language	Chinese
Published	天津科技大学人工智能学院,天津 300457%河南师范大学计算机与信息工程学院,河南新乡 453007 2024
Subjects	K-means聚类 artificial bee colony 特征重要度 feature importance 人工蜂群特征选择 feature selection K-means clustering
Online Access	Get full text

Cover

Loading…

More Information
Summary:	TP391; K-means聚类是一种简捷高效、收敛速度快且易于实现的统计分析方法,但是传统的K-means聚类算法对初始聚类中心的选取敏感且易陷入局部最优,同时多数无监督特征选择算法容易忽视特征之间的联系.为此,提出了一种结合人工蜂群与K-means聚类的特征选择方法.首先,为了使同一簇中样本的相似度高而不同簇中样本的相似度低,基于簇内聚集度和簇间离散度构建了新的适应度函数,更好地反映各样本的特性,进而构建了蜜源被选择新的概率表达式;其次,设计了随着迭代次数的增加而数值逐渐减小的权重,提出了使蜂群搜索范围动态缩进的蜜源位置更新表达式;然后,为了弥补传统的欧氏距离在计算距离时仅考虑向量之间的累积差异而表现出的局限性,构造了同时考虑样本影响程度不同以及样本的相似性的加权欧氏距离表达式;最后,引入标准差和距离相关系数,定义了特征区分度与特征代表性,以二者之积度量特征重要性.实验结果表明,所提算法加快了人工蜂群算法的收敛速度并提高了K-means算法的聚类效果,同时也有效地提升了特征选择的分类效果.
ISSN:	1673-9418
DOI:	10.3778/j.issn.1673-9418.2212075