基于BERT的多特征融合农业命名实体识别

TP391.1; 命名实体识别是农业文本信息抽取的重要环节,针对实体识别过程中局部上下文特征缺失、字向量表征单一、罕见实体识别率低等问题,提出一种融合BERT(Bidirectional Encoder Representations from Transformers,转换器的双向编码器表征量)字级特征与外部词典特征的命名实体识别方法.通过BERT预训练模型,融合左右两侧语境信息,增强字的语义表示,缓解一词多义的问题;自建农业领域词典,引入双向最大匹配策略,获取分布式词典特征表示,提高模型对罕见或未知实体的识别准确率;利用双向长短时记忆(Bi-directional Long-short T...

Full description

Saved in:
Bibliographic Details
Published in农业工程学报 Vol. 38; no. 3; pp. 112 - 118
Main Authors 赵鹏飞, 赵春江, 吴华瑞, 王维
Format Journal Article
LanguageChinese
Published 北京农业智能装备技术研究中心,北京 100097%国家农业信息化工程技术研究中心,北京 100097 01.02.2022
山西农业大学工学院,太谷 030801%山西农业大学工学院,太谷 030801
国家农业信息化工程技术研究中心,北京 100097%国家农业信息化工程技术研究中心,北京 100097
北京农业信息技术研究中心,北京 100097
Subjects
Online AccessGet full text
ISSN1002-6819
DOI10.11975/j.issn.1002-6819.2022.03.013

Cover

Loading…
More Information
Summary:TP391.1; 命名实体识别是农业文本信息抽取的重要环节,针对实体识别过程中局部上下文特征缺失、字向量表征单一、罕见实体识别率低等问题,提出一种融合BERT(Bidirectional Encoder Representations from Transformers,转换器的双向编码器表征量)字级特征与外部词典特征的命名实体识别方法.通过BERT预训练模型,融合左右两侧语境信息,增强字的语义表示,缓解一词多义的问题;自建农业领域词典,引入双向最大匹配策略,获取分布式词典特征表示,提高模型对罕见或未知实体的识别准确率;利用双向长短时记忆(Bi-directional Long-short Term Memory,BiLSTM)网络获取序列特征矩阵,并通过条件随机场(Conditional Random Field,CRF)模型生成全局最优序列.结合领域专家知识,构建农业语料集,包含5295条标注语料,5类农业实体.模型在语料集上准确率为94.84%、召回率为95.23%、F1值为95.03%.研究结果表明,该方法能够有效识别农业领域命名实体,识别精准度优于其他模型,具有明显的优势.
ISSN:1002-6819
DOI:10.11975/j.issn.1002-6819.2022.03.013