基于实体级遮蔽BERT与BiLSTM-CRF的农业命名实体识别
TP391; 字符的位置信息和语义信息对命名方式繁杂且名称长度较长的中文农业实体的识别至关重要.为解决命名实体识别过程中由于捕获字符位置信息、上下文语义特征和长距离依赖信息不充足导致识别效果不理想的问题,该研究提出一种基于EmBERT-BiLSTM-CRF模型的中文农业命名实体识别方法.该方法采用基于Transformer的深度双向预训练语言模型(Bidirectional Encoder Representation from Transformers,BERT)作为嵌入层提取字向量的深度双向表示,并使用实体级遮蔽策略使模型更好地表征中文语义;然后使用双向长短时记忆网络(Bidirectio...
Saved in:
Published in | 农业工程学报 Vol. 38; no. 15; pp. 195 - 203 |
---|---|
Main Authors | , , , |
Format | Journal Article |
Language | Chinese |
Published |
广西多媒体通信与网络技术重点实验室,南宁 530004
01.08.2022
广西大学计算机与电子信息学院,南宁 530004%南宁学院信息工程学院,南宁 530200 广西多媒体通信与网络技术重点实验室,南宁 530004%广西财经学院信息与统计学院,南宁 530007%广西大学计算机与电子信息学院,南宁 530004 |
Subjects | |
Online Access | Get full text |
ISSN | 1002-6819 |
DOI | 10.11975/j.issn.1002-6819.2022.15.021 |
Cover
Summary: | TP391; 字符的位置信息和语义信息对命名方式繁杂且名称长度较长的中文农业实体的识别至关重要.为解决命名实体识别过程中由于捕获字符位置信息、上下文语义特征和长距离依赖信息不充足导致识别效果不理想的问题,该研究提出一种基于EmBERT-BiLSTM-CRF模型的中文农业命名实体识别方法.该方法采用基于Transformer的深度双向预训练语言模型(Bidirectional Encoder Representation from Transformers,BERT)作为嵌入层提取字向量的深度双向表示,并使用实体级遮蔽策略使模型更好地表征中文语义;然后使用双向长短时记忆网络(Bidirectional Long Short-Term Memory,BiLSTM)学习文本的长序列语义特征;最后使用条件随机场(Conditional Random Field,CRF)在训练数据中学习标注约束规则,并利用相邻标签之间的信息输出全局最优的标注序列.训练过程中使用了焦点损失函数来缓解样本分布不均衡的问题.试验在构建的语料库上对农作物品种、病害、虫害和农药4类农业实体进行识别.结果表明,该研究的EmBERT-BiLSTM-CRF模型对4类农业实体的识别性能相较于其他模型有明显提升,准确率为94.97%,F1值为95.93%. |
---|---|
ISSN: | 1002-6819 |
DOI: | 10.11975/j.issn.1002-6819.2022.15.021 |