利用MapReduce平台实现高效并行的频繁子图挖掘

TP311; 频繁子图挖掘是数据挖掘领域的一个重要问题,并且有着广泛的应用。在Hadoop平台上实现了一种基于MapReduce的高效频繁子图挖掘算法Cloud-GFSG(cloud-global frequent subgraph)。该算法基于Apriori思想,在扩展边生成新的子图时,使用已经挖掘出的k-1阶的频繁子图生成k阶的频繁子图。同时,检查是否存在待扩展生成的子图,设定生成的频繁子图表示规则,保证了频繁子图信息的唯一性。较同类算法相比,该算法在挖掘频繁子图时更具通用性,并且在扩展边时避免产生大量的复制图,从而使得算法的正确性得以保证,且运行效率显著提高。...

Full description

Saved in:
Bibliographic Details
Published in计算机科学与探索 no. 7; pp. 790 - 801
Main Authors 孙鹤立, 陈强, 刘玮, 黄健斌, 邹建华
Format Journal Article
LanguageChinese
Published 南京大学 计算机软件新技术国家重点实验室,南京 210023 2014
西安交通大学 电子与信息工程学院,西安,710049%西安电子科技大学 软件学院,西安,710071%北京邮电大学 信息与通信工程学院,北京,100876%西安电子科技大学 软件学院,西安 710071
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:TP311; 频繁子图挖掘是数据挖掘领域的一个重要问题,并且有着广泛的应用。在Hadoop平台上实现了一种基于MapReduce的高效频繁子图挖掘算法Cloud-GFSG(cloud-global frequent subgraph)。该算法基于Apriori思想,在扩展边生成新的子图时,使用已经挖掘出的k-1阶的频繁子图生成k阶的频繁子图。同时,检查是否存在待扩展生成的子图,设定生成的频繁子图表示规则,保证了频繁子图信息的唯一性。较同类算法相比,该算法在挖掘频繁子图时更具通用性,并且在扩展边时避免产生大量的复制图,从而使得算法的正确性得以保证,且运行效率显著提高。
ISSN:1673-9418
DOI:10.3778/j.issn.1673-9418.1403027