面向多源数据的可扩展主题建模分析框架

TP391; 随着信息技术的不断发展和应用,大量信息系统积累了海量多源异构数据,这些数据中有很大一部分都是结构化数据,具有高维度、低质量、无标注等特点,难以进行特征提取与进一步的知识提炼.主题建模是文本处理和数据挖掘中的一个非常重要的方法,它是一种无监督学习算法,最初用于对无结构的自然语言文本进行建模,可以有效地从文本语义中提取主题信息,以进行特征提取和降维分析,然而主题建模技术尚不能很好应用在关系复杂的多源数据,尤其是结构化数据的处理中.提出了一个基于可扩展主题建模技术的针对结构化与非结构化多源数据分析框架,通过数据导入、数据分析、数据可视化三个步骤对多源数据进行基于主题建模技术的数据分析,...

Full description

Saved in:
Bibliographic Details
Published in计算机科学与探索 Vol. 13; no. 5; pp. 742 - 752
Main Authors 唐爽, 张灵箫, 赵俊峰, 谢冰, 邹艳珍
Format Journal Article
LanguageChinese
Published 高可信软件技术教育部重点实验室,北京 100871%北京大学 信息科学技术学院,北京 100871 2019
北京大学(天津滨海)新一代信息技术研究院,天津 300450
北京大学 信息科学技术学院,北京 100871
高可信软件技术教育部重点实验室,北京 100871
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:TP391; 随着信息技术的不断发展和应用,大量信息系统积累了海量多源异构数据,这些数据中有很大一部分都是结构化数据,具有高维度、低质量、无标注等特点,难以进行特征提取与进一步的知识提炼.主题建模是文本处理和数据挖掘中的一个非常重要的方法,它是一种无监督学习算法,最初用于对无结构的自然语言文本进行建模,可以有效地从文本语义中提取主题信息,以进行特征提取和降维分析,然而主题建模技术尚不能很好应用在关系复杂的多源数据,尤其是结构化数据的处理中.提出了一个基于可扩展主题建模技术的针对结构化与非结构化多源数据分析框架,通过数据导入、数据分析、数据可视化三个步骤对多源数据进行基于主题建模技术的数据分析,并在此基础上实现了一个多源数据分析工具,最后通过两个数据集的实验证明了所提的多源数据分析框架的有效性.
ISSN:1673-9418
DOI:10.3778/j.issn.1673-9418.1710025