基于异质信息网的短文本特征扩充方法

TP391; 随着计算机技术深度融入社会生活,越来越多的短文本信息遍布在网络平台上.针对短文本的数据稀疏问题,文中构建了一个鲁棒的异质信息网框架(HTE)来建模短文本,该框架可集成任何类型的附加信息并捕获它们之间的关系,以解决数据稀疏问题.基于该框架利用不同外部知识设计了6种短文本扩充方法,引入Wikipedia知识库和Freebase知识库的实体、实体类别、实体间关系等实体信息和文本主题等文本信息,以丰富短文本特征.最后使用相似性度量结果来验证所提出的短文本特征扩充方法的效果.通过与传统的3种相似性度量方法的6种文本扩充方法以及目前主流的短文本匹配算法在两个短文本数据集上进行比较,结果表明,...

Full description

Saved in:
Bibliographic Details
Published in计算机科学 Vol. 49; no. 9; pp. 92 - 100
Main Authors 吕晓锋, 赵书良, 高恒达, 武永亮, 张宝奇
Format Journal Article
LanguageChinese
Published 河北师范大学计算机与网络空间安全学院 石家庄050024 2022
供应链大数据分析与数据安全河北省工程研究中心 石家庄050024
河北省网络与信息安全重点实验室 石家庄050024%河北师范大学软件学院 石家庄050024%石家庄铁道大学信息科学与技术学院 石家庄050043
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:TP391; 随着计算机技术深度融入社会生活,越来越多的短文本信息遍布在网络平台上.针对短文本的数据稀疏问题,文中构建了一个鲁棒的异质信息网框架(HTE)来建模短文本,该框架可集成任何类型的附加信息并捕获它们之间的关系,以解决数据稀疏问题.基于该框架利用不同外部知识设计了6种短文本扩充方法,引入Wikipedia知识库和Freebase知识库的实体、实体类别、实体间关系等实体信息和文本主题等文本信息,以丰富短文本特征.最后使用相似性度量结果来验证所提出的短文本特征扩充方法的效果.通过与传统的3种相似性度量方法的6种文本扩充方法以及目前主流的短文本匹配算法在两个短文本数据集上进行比较,结果表明,所提的6种短文本扩充方法均有所提升,最佳方法的相似度度量结果与BERT相比提升了5.97%,证明了所提框架具有鲁棒性,可以包含多种类型的外部知识,能够解决短文本的数据稀疏性问题,以无监督的方式高精度地对短文本进行相似性度量.
ISSN:1002-137X
DOI:10.11896/jsjkx.210700241