面向武器装备领域的复杂实体识别

针对武器装备领域复杂实体的特点,提出一种融合多特征后挂载武器装备领域知识的复杂命名实体识别方法.首先,使用BERT模型对武器装备领域数据进行预训练,得到数据向量,使用Word2Vec模型学习郑码、五笔、拼音和笔画的上下位特征,获取特征向量.然后,将数据向量与特征向量融合,利用Bi-LSTM模型进行编码,使用CRF解码得到标签序列.最后,基于武器装备领域知识,对标签序列进行复杂实体的触发检测,完成复杂命名实体识别.使用环球军事网数据作为语料进行实验,分析不同的特征组合、不同神经网络模型下的识别效果,并提出适用于评价复杂命名实体识别结果的计算方法.实验结果表明,提出的挂载领域知识且融合多特征的武器...

Full description

Saved in:
Bibliographic Details
Published in北京大学学报(自然科学版) Vol. 58; no. 3; pp. 391 - 404
Main Authors 游新冬, 葛昊杰, 韩君妹, 李育贤, 吕学强
Format Journal Article
LanguageChinese
Published 北京信息科技大学网络文化与数字传播北京市重点实验室, 北京 100101%军事科学院系统工程研究院复杂系统 仿真总体重点实验室, 北京 100101 20.05.2022
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:针对武器装备领域复杂实体的特点,提出一种融合多特征后挂载武器装备领域知识的复杂命名实体识别方法.首先,使用BERT模型对武器装备领域数据进行预训练,得到数据向量,使用Word2Vec模型学习郑码、五笔、拼音和笔画的上下位特征,获取特征向量.然后,将数据向量与特征向量融合,利用Bi-LSTM模型进行编码,使用CRF解码得到标签序列.最后,基于武器装备领域知识,对标签序列进行复杂实体的触发检测,完成复杂命名实体识别.使用环球军事网数据作为语料进行实验,分析不同的特征组合、不同神经网络模型下的识别效果,并提出适用于评价复杂命名实体识别结果的计算方法.实验结果表明,提出的挂载领域知识且融合多特征的武器装备复杂命名实体识别方法的F1值达到95.37%,优于现有方法.
ISSN:0479-8023
DOI:10.13209/j.0479-8023.2021.118