一种半监督金融事件多标签分类方法

TP391; 随着数字金融服务业的不断发展,互联网和金融服务系统积累了海量文本数据,对金融文本中描述的金融事件自动分类是金融科技的现实需求,也是自然语言处理和机器学习领域广泛关注的方向.目前,深度学习方法已在文本分类中广泛应用,针对文本数据中的金融事件多标签分类中存在的已标注数据缺少、已有深度学习方法消耗资源大以及现有方法未利用金融事件文本的具体特点等问题,通过采用ALBERT和TextCNN等表示工具,引入主体词注意力机制,提出了一种半监督金融事件多标签分类方法.首先,通过无监督数据增强(Unsupervised data augmentation,UDA)方法缓解标注数据量不足的问题;其次...

Full description

Saved in:

Bibliographic Details
Published in	数据采集与处理 Vol. 39; no. 2; pp. 385 - 394
Main Authors	杨卓峰, 李旸, 李德玉
Format	Journal Article
Language	Chinese
Published	山西大学计算机与信息技术学院,太原 030006%山西财经大学金融学院,太原 030006%山西大学计算机与信息技术学院,太原 030006 01.03.2024 计算智能与中文信息处理教育部重点实验室(山西大学),太原 030006
Subjects	注意力机制 financial event 金融文本 semi-supervised method attention mechanism 金融事件多标签分类半监督方法 multi-label classification financial text
Online Access	Get full text

Cover

Loading…

More Information
Summary:	TP391; 随着数字金融服务业的不断发展,互联网和金融服务系统积累了海量文本数据,对金融文本中描述的金融事件自动分类是金融科技的现实需求,也是自然语言处理和机器学习领域广泛关注的方向.目前,深度学习方法已在文本分类中广泛应用,针对文本数据中的金融事件多标签分类中存在的已标注数据缺少、已有深度学习方法消耗资源大以及现有方法未利用金融事件文本的具体特点等问题,通过采用ALBERT和TextCNN等表示工具,引入主体词注意力机制,提出了一种半监督金融事件多标签分类方法.首先,通过无监督数据增强(Unsupervised data augmentation,UDA)方法缓解标注数据量不足的问题;其次,引入了主体词注意力机制,使用ALBERT动态词向量表征方法对文本中的词进行表示;然后,利用TextCNN对文本进行综合语义表示;最后,分别采用交叉熵和KL散度度量标记数据和无标记数据的损失来训练模型.在金融文本数据集上验证了本文所提方法的有效性.
ISSN:	1004-9037
DOI:	10.16337/j.1004-9037.2024.02.011