一种基于MPI的稀疏化局部尺度并行谱聚类算法的研究与实现

谱聚类算法由于其可识别非凸数据分布、可有效避免局部最优解、不受数据点维数限制等优点,在许多领域得到广泛应用。然而,随着数据量的增大和数据维数的增多,在保证聚类准确性的前提下,尽可能降低计算时间将变得非常必要。此外,影响谱聚类算法聚类质量的因素除数据集本身外,还与所采用的求解距离矩阵的方法、相似性矩阵的尺度参数、Laplacian矩阵形式等多种因素相关。针对以上问题,首先对于大规模数据问题,将MPI并行编程模型应用于谱聚类算法;然后利用t-最近邻方法对谱聚类算法中较大维数的Laplacian矩阵进行近似转化,同时用局部尺度(Local Scaling)参数对算法中的尺度参数进行自动调节。基于上述...

Full description

Saved in:
Bibliographic Details
Published in计算机工程与科学 Vol. 38; no. 5; pp. 839 - 847
Main Author 李瑞琳 赵永华 黄小磊
Format Journal Article
LanguageChinese
Published 中国科学院计算机网络信息中心,北京 100190 2016
中国科学院计算机网络信息中心高性能计算部,北京 100190
中国科学院大学,北京 100190%中国科学院计算机网络信息中心高性能计算部,北京,100190%中国科学院大学,北京 100190
Subjects
Online AccessGet full text
ISSN1007-130X
DOI10.3969/j.issn.1007-130X.2016.05.001

Cover

Abstract 谱聚类算法由于其可识别非凸数据分布、可有效避免局部最优解、不受数据点维数限制等优点,在许多领域得到广泛应用。然而,随着数据量的增大和数据维数的增多,在保证聚类准确性的前提下,尽可能降低计算时间将变得非常必要。此外,影响谱聚类算法聚类质量的因素除数据集本身外,还与所采用的求解距离矩阵的方法、相似性矩阵的尺度参数、Laplacian矩阵形式等多种因素相关。针对以上问题,首先对于大规模数据问题,将MPI并行编程模型应用于谱聚类算法;然后利用t-最近邻方法对谱聚类算法中较大维数的Laplacian矩阵进行近似转化,同时用局部尺度(Local Scaling)参数对算法中的尺度参数进行自动调节。基于上述分析,提出了一种谱聚类并行实现算法,即稀疏化局部尺度并行谱聚类算法SLSPSC,并在四个数据集上进行了测试,与现有的并行谱聚类算法PSC在运行时间和聚类质量两方面做了比较分析。实验结果显示,该算法降低了求解Laplacian矩阵的总时间,同时部分数据集聚类质量得到较大提高。
AbstractList O246; 谱聚类算法由于其可识别非凸数据分布、可有效避免局部最优解、不受数据点维数限制等优点,在许多领域得到广泛应用.然而,随着数据量的增大和数据维数的增多,在保证聚类准确性的前提下,尽可能降低计算时间将变得非常必要.此外,影响谱聚类算法聚类质量的因素除数据集本身外,还与所采用的求解距离矩阵的方法、相似性矩阵的尺度参数、Laplacian矩阵形式等多种因素相关.针对以上问题,首先对于大规模数据问题,将MPI并行编程模型应用于谱聚类算法;然后利用t-最近邻方法对谱聚类算法中较大维数的Laplacian矩阵进行近似转化,同时用局部尺度(Local Scaling)参数对算法中的尺度参数进行自动调节.基于上述分析,提出了一种谱聚类并行实现算法,即稀疏化局部尺度并行谱聚类算法SLSPSC,并在四个数据集上进行了测试,与现有的并行谱聚类算法PSC在运行时间和聚类质量两方面做了比较分析.实验结果显示,该算法降低了求解Laplacian矩阵的总时间,同时部分数据集聚类质量得到较大提高.
谱聚类算法由于其可识别非凸数据分布、可有效避免局部最优解、不受数据点维数限制等优点,在许多领域得到广泛应用。然而,随着数据量的增大和数据维数的增多,在保证聚类准确性的前提下,尽可能降低计算时间将变得非常必要。此外,影响谱聚类算法聚类质量的因素除数据集本身外,还与所采用的求解距离矩阵的方法、相似性矩阵的尺度参数、Laplacian矩阵形式等多种因素相关。针对以上问题,首先对于大规模数据问题,将MPI并行编程模型应用于谱聚类算法;然后利用t-最近邻方法对谱聚类算法中较大维数的Laplacian矩阵进行近似转化,同时用局部尺度(Local Scaling)参数对算法中的尺度参数进行自动调节。基于上述分析,提出了一种谱聚类并行实现算法,即稀疏化局部尺度并行谱聚类算法SLSPSC,并在四个数据集上进行了测试,与现有的并行谱聚类算法PSC在运行时间和聚类质量两方面做了比较分析。实验结果显示,该算法降低了求解Laplacian矩阵的总时间,同时部分数据集聚类质量得到较大提高。
Author 李瑞琳 赵永华 黄小磊
AuthorAffiliation 中国科学院计算机网络信息中心高性能计算部,北京100190 中国科学院大学,北京100190 中国科学院计算机网络信息中心,北京100190
AuthorAffiliation_xml – name: 中国科学院计算机网络信息中心高性能计算部,北京 100190;中国科学院大学,北京 100190%中国科学院计算机网络信息中心高性能计算部,北京,100190%中国科学院大学,北京 100190;中国科学院计算机网络信息中心,北京 100190
Author_FL HUANG Xiao-lei
ZHAO Yong-hua
LI Rui-lin
Author_FL_xml – sequence: 1
  fullname: LI Rui-lin
– sequence: 2
  fullname: ZHAO Yong-hua
– sequence: 3
  fullname: HUANG Xiao-lei
Author_xml – sequence: 1
  fullname: 李瑞琳 赵永华 黄小磊
BookMark eNo9kEtPwkAUhWeBiYj8CePGReudTmc6XRrigwQfCxbummnTYqsWpTHKDqNLxI1iwsLHRnFDICYE69-hDv4LSzBuzklOvpybexZQJqyGLkLLGFRiMnM1UP0oClUMYCiYwL6qAWYqUBUAZ1D2P59H-SjybQBGGacGzqKd8agh326Sp3gct7b3irJzLbsN2b5Nmu1k0Pi56ib9OIlfk8_h5KU56Q8mlx05-JK9h--P-yn8fCffh-NRK-k9ylZ_Ec154ihy83-eQ-WN9XJhSyntbhYLayXFYRgr1BEmJ7rQdc5MrLucmDY1GNVtKjysYZdQQak9FeYSwl3TBQLC8zzNMG0BJIdWZrXnIvREWLGC6lktTA9aQRRUnPrhxXQAoOn7Kbs0Y52Dalg59VP6pOYfi1rdYoxzA2sGkF9tUXr7
ClassificationCodes O246
ContentType Journal Article
Copyright Copyright © Wanfang Data Co. Ltd. All Rights Reserved.
Copyright_xml – notice: Copyright © Wanfang Data Co. Ltd. All Rights Reserved.
DBID 2RA
92L
CQIGP
W92
~WA
2B.
4A8
92I
93N
PSX
TCJ
DOI 10.3969/j.issn.1007-130X.2016.05.001
DatabaseName 中文期刊服务平台
中文科技期刊数据库-CALIS站点
中文科技期刊数据库-7.0平台
中文科技期刊数据库-工程技术
中文科技期刊数据库- 镜像站点
Wanfang Data Journals - Hong Kong
WANFANG Data Centre
Wanfang Data Journals
万方数据期刊 - 香港版
China Online Journals (COJ)
China Online Journals (COJ)
DatabaseTitleList

DeliveryMethod fulltext_linktorsrc
DocumentTitleAlternate A sparse local scaling parallel spectral clustering algorithm based on MPI
DocumentTitle_FL A sparse local scaling parallel spectral clustering algorithm based on MPI
EndPage 847
ExternalDocumentID jsjgcykx201605001
668871270
GrantInformation_xml – fundername: 数学工程与先进计算国家重点实验室开放基金
  funderid: (2014A03)
GroupedDBID 2RA
92L
ALMA_UNASSIGNED_HOLDINGS
CDYEO
CQIGP
W92
~WA
2B.
4A8
92I
93N
PSX
TCJ
ID FETCH-LOGICAL-c611-5ca9834a4486914e839b57654b5af121e35a55b5a556e338e9e030afff279ba03
ISSN 1007-130X
IngestDate Thu May 29 04:04:00 EDT 2025
Wed Feb 14 15:30:18 EST 2024
IsPeerReviewed true
IsScholarly true
Issue 5
Keywords MPI
sparsification
parallel spectral clustering
局部尺度
local scaling
并行谱聚类
稀疏化
Language Chinese
LinkModel OpenURL
MergedId FETCHMERGED-LOGICAL-c611-5ca9834a4486914e839b57654b5af121e35a55b5a556e338e9e030afff279ba03
Notes LI Rui-lin, ZHAO Yong-hua , HUANG Xiao-lei(1. The Department of High Performance Computing,Computer Network Information Center, Chinese Academy of Sciences, Beijing 100190 2. University of Chinese Academy of Sciences,Beijing 100190 3. Computer Network Information Center, Chinese Academy of Sciences, Beijing 100190, China)
The spectral clustering algorithm is widely used in many fields because of its advantages of identifying the non-convex data distribution, and effectively avoiding the local optimal solution without the dimension limitation of data points. However, with the growth of the amount and dimension of the data, it is very necessary to reduce the algorithm's computation time on the premise of guaranteeing the clustering accuracy. Moreover, besides the data set itself, the factors affecting the clustering quality of the spectral clustering algorithm include the method of solving distance matrix, the scale parameters of similarity matrix and the form of Laplacian matrix. Aiming at the problems mentione
PageCount 9
ParticipantIDs wanfang_journals_jsjgcykx201605001
chongqing_primary_668871270
PublicationCentury 2000
PublicationDate 2016
PublicationDateYYYYMMDD 2016-01-01
PublicationDate_xml – year: 2016
  text: 2016
PublicationDecade 2010
PublicationTitle 计算机工程与科学
PublicationTitleAlternate Computer Engineering & Science
PublicationTitle_FL Computer Engineering and Science
PublicationYear 2016
Publisher 中国科学院计算机网络信息中心,北京 100190
中国科学院计算机网络信息中心高性能计算部,北京 100190
中国科学院大学,北京 100190%中国科学院计算机网络信息中心高性能计算部,北京,100190%中国科学院大学,北京 100190
Publisher_xml – name: 中国科学院大学,北京 100190%中国科学院计算机网络信息中心高性能计算部,北京,100190%中国科学院大学,北京 100190
– name: 中国科学院计算机网络信息中心高性能计算部,北京 100190
– name: 中国科学院计算机网络信息中心,北京 100190
SSID ssib006568571
ssib017479296
ssib001050383
ssib015938883
ssib001102936
ssib051375740
ssib023646326
ssib036438059
ssib000459496
Score 2.020017
Snippet ...
O246;...
SourceID wanfang
chongqing
SourceType Aggregation Database
Publisher
StartPage 839
SubjectTerms MPI
局部尺度
并行谱聚类
稀疏化
Title 一种基于MPI的稀疏化局部尺度并行谱聚类算法的研究与实现
URI http://lib.cqvip.com/qk/94293X/201605/668871270.html
https://d.wanfangdata.com.cn/periodical/jsjgcykx201605001
Volume 38
hasFullText 1
inHoldings 1
isFullTextHit
isPrint
link http://utb.summon.serialssolutions.com/2.0.0/link/0/eLvHCXMwnR1dT9RAsEFIjC9Go0ZEDTHskzlsu9-P7V0vaISYiAlvl_auhWByqECiPGH0EfFFMeHBjxfFFwIxIXg--084i__CmW3vrgghaHLZTHdmZ3Z2trczm92pZY1QFofCTRqlRj0OSyxRvBS6sSjVKas3RJJI1jCnfCfE2AN2Z4pP9Z36WTi1tLgQjdaXjrxX8j9WhTqwK96S_QfLdplCBcBgXyjBwlCeyMYkYMRXeFghkMSTRFVIwImuEt8zKI-oYPzebcRqgJkh69BrQVQV6VUZYQB8x6A0URTJsMY2rDiWXkajiQ-AIp6DDQFAGgcB5aAU4AyPvm9kBURLEgjiU6L5wW7YRGdAxjBTJEAR2CpAFDz6dtF7NnIDFF1krsudTkIl7-joF3iawdGOYV4BRTqzzLSu5CSAz8RqUIj2SEBDjj9Uw0aOOGTYqEeiUV_Uy4wYjipIpER5xT2V7LKnmf9517zMXD7xK4f7iFy1Jp57rNIS22qDgi5AJXKuGmKBBvGqB2QBCmzrljtml_k08co3MUtW9knVfI3C3WVwPaaKixhVhZeVF1YkleWK6jg3WXrTv9dNqoU26yYKGO0KwJOPwiS2zTecDmYmn52fna4_e_gUqWxu4y3KAVdKh_dbA15l_O79YtygWSGvo2OyEBUvdNvgdvbwEGQo3otTwOWmSvXoIYqW4NZ36fEjCKIQh8AjVYW4gTtUcpldju7odtoayRW_dZzamHJlZq45_RgcSXOvr5mEzemCCzp5zjqbx47DXvZHcN7qW5q5YE3s7S6nX161P7T2WqvwsqfrL9ON5XTtdXtlrb29_PvFRnur1W59bn_f2f-0sr-1vf98Pd3-kW6--_XtLRJ_fJN-3dnbXW1vvk9Xty5ak9VgsjxWyj-SUqoLxynxeqgVZSFjSmiHxWDuiEvBWcTDxHGdmPKQ8wgLEVOqYh3Dsh4mSeJKHYU2vWT1N-ea8WVrmOuYiyh27IZkjLmhbrAGcHaFTGjCIzpoDXWHovYoy4VTEwK8FDy9MmjdyAenlv9DztcOTZArJyEass4gnO1zXrX6F54sxtfA81-Irufz6g_u-ckU
linkProvider EBSCOhost
openUrl ctx_ver=Z39.88-2004&ctx_enc=info%3Aofi%2Fenc%3AUTF-8&rfr_id=info%3Asid%2Fsummon.serialssolutions.com&rft_val_fmt=info%3Aofi%2Ffmt%3Akev%3Amtx%3Ajournal&rft.genre=article&rft.atitle=%E4%B8%80%E7%A7%8D%E5%9F%BA%E4%BA%8EMPI%E7%9A%84%E7%A8%80%E7%96%8F%E5%8C%96%E5%B1%80%E9%83%A8%E5%B0%BA%E5%BA%A6%E5%B9%B6%E8%A1%8C%E8%B0%B1%E8%81%9A%E7%B1%BB%E7%AE%97%E6%B3%95%E7%9A%84%E7%A0%94%E7%A9%B6%E4%B8%8E%E5%AE%9E%E7%8E%B0&rft.jtitle=%E8%AE%A1%E7%AE%97%E6%9C%BA%E5%B7%A5%E7%A8%8B%E4%B8%8E%E7%A7%91%E5%AD%A6&rft.au=%E6%9D%8E%E7%91%9E%E7%90%B3&rft.au=%E8%B5%B5%E6%B0%B8%E5%8D%8E&rft.au=%E9%BB%84%E5%B0%8F%E7%A3%8A&rft.date=2016&rft.pub=%E4%B8%AD%E5%9B%BD%E7%A7%91%E5%AD%A6%E9%99%A2%E8%AE%A1%E7%AE%97%E6%9C%BA%E7%BD%91%E7%BB%9C%E4%BF%A1%E6%81%AF%E4%B8%AD%E5%BF%83%2C%E5%8C%97%E4%BA%AC+100190&rft.issn=1007-130X&rft.volume=38&rft.issue=5&rft.spage=839&rft.epage=847&rft_id=info:doi/10.3969%2Fj.issn.1007-130X.2016.05.001&rft.externalDocID=jsjgcykx201605001
thumbnail_s http://utb.summon.serialssolutions.com/2.0.0/image/custom?url=http%3A%2F%2Fimage.cqvip.com%2Fvip1000%2Fqk%2F94293X%2F94293X.jpg
http://utb.summon.serialssolutions.com/2.0.0/image/custom?url=http%3A%2F%2Fwww.wanfangdata.com.cn%2Fimages%2FPeriodicalImages%2Fjsjgcykx%2Fjsjgcykx.jpg