基于语义图谱的短文本特征扩展方法

本发明公开了种基于语义图谱的短文本特征扩展方法,包括以下步骤:利用短文本训练数据集进行主题建模,抽取主题词分布;对主题词分布进行重排序;构建候选关键词词典和主题-关键词语义图谱;基于链接分析的方法计算候选关键词和种子关键词的综合相似度评价,选择最相似的候选关键词完成对短文本的扩展。本发明方法较基于语言模型的短文本特征表示方法操作简单,执行效率高,而且充分利用关键词之间的语义关联信息,较传统的基于词袋模型的短文本特征表示方法,有效缓解了数据稀疏性问题和语义敏感性问题,不依赖于外部大规模辅助训练语料或者搜索引擎。 The invention discloses a short text chara...

Full description

Saved in:
Bibliographic Details
Format Patent
LanguageChinese
Published 01.12.2017
Subjects
Online AccessGet full text

Cover

More Information
Summary:本发明公开了种基于语义图谱的短文本特征扩展方法,包括以下步骤:利用短文本训练数据集进行主题建模,抽取主题词分布;对主题词分布进行重排序;构建候选关键词词典和主题-关键词语义图谱;基于链接分析的方法计算候选关键词和种子关键词的综合相似度评价,选择最相似的候选关键词完成对短文本的扩展。本发明方法较基于语言模型的短文本特征表示方法操作简单,执行效率高,而且充分利用关键词之间的语义关联信息,较传统的基于词袋模型的短文本特征表示方法,有效缓解了数据稀疏性问题和语义敏感性问题,不依赖于外部大规模辅助训练语料或者搜索引擎。 The invention discloses a short text characteristic expanding method based on a semantic atlas. The method includes the steps: performing subject modeling by the aid of a training data set of a short text, and extracting subject term distribution; reordering the subject term distribution; building a candidate keyword dictionary and a subject-keyword semantic atlas; calculating comprehensive similarity degree evaluation of candidate keywords and seed keywords based on a link analysis method, and selecting the most similar candidate keywords to finish expanding the short text. Compared with a short text characteristic representation method based on a language model, the method is simple to operate and high in execution efficiency, and semantic correlation in
Bibliography:Application Number: CN201410686237