一种半监督金融事件多标签分类方法
TP391; 随着数字金融服务业的不断发展,互联网和金融服务系统积累了海量文本数据,对金融文本中描述的金融事件自动分类是金融科技的现实需求,也是自然语言处理和机器学习领域广泛关注的方向.目前,深度学习方法已在文本分类中广泛应用,针对文本数据中的金融事件多标签分类中存在的已标注数据缺少、已有深度学习方法消耗资源大以及现有方法未利用金融事件文本的具体特点等问题,通过采用ALBERT和TextCNN等表示工具,引入主体词注意力机制,提出了一种半监督金融事件多标签分类方法.首先,通过无监督数据增强(Unsupervised data augmentation,UDA)方法缓解标注数据量不足的问题;其次...
Saved in:
Published in | 数据采集与处理 Vol. 39; no. 2; pp. 385 - 394 |
---|---|
Main Authors | , , |
Format | Journal Article |
Language | Chinese |
Published |
山西大学计算机与信息技术学院,太原 030006%山西财经大学金融学院,太原 030006%山西大学计算机与信息技术学院,太原 030006
01.03.2024
计算智能与中文信息处理教育部重点实验室(山西大学),太原 030006 |
Subjects | |
Online Access | Get full text |
Cover
Loading…
Abstract | TP391; 随着数字金融服务业的不断发展,互联网和金融服务系统积累了海量文本数据,对金融文本中描述的金融事件自动分类是金融科技的现实需求,也是自然语言处理和机器学习领域广泛关注的方向.目前,深度学习方法已在文本分类中广泛应用,针对文本数据中的金融事件多标签分类中存在的已标注数据缺少、已有深度学习方法消耗资源大以及现有方法未利用金融事件文本的具体特点等问题,通过采用ALBERT和TextCNN等表示工具,引入主体词注意力机制,提出了一种半监督金融事件多标签分类方法.首先,通过无监督数据增强(Unsupervised data augmentation,UDA)方法缓解标注数据量不足的问题;其次,引入了主体词注意力机制,使用ALBERT动态词向量表征方法对文本中的词进行表示;然后,利用TextCNN对文本进行综合语义表示;最后,分别采用交叉熵和KL散度度量标记数据和无标记数据的损失来训练模型.在金融文本数据集上验证了本文所提方法的有效性. |
---|---|
AbstractList | TP391; 随着数字金融服务业的不断发展,互联网和金融服务系统积累了海量文本数据,对金融文本中描述的金融事件自动分类是金融科技的现实需求,也是自然语言处理和机器学习领域广泛关注的方向.目前,深度学习方法已在文本分类中广泛应用,针对文本数据中的金融事件多标签分类中存在的已标注数据缺少、已有深度学习方法消耗资源大以及现有方法未利用金融事件文本的具体特点等问题,通过采用ALBERT和TextCNN等表示工具,引入主体词注意力机制,提出了一种半监督金融事件多标签分类方法.首先,通过无监督数据增强(Unsupervised data augmentation,UDA)方法缓解标注数据量不足的问题;其次,引入了主体词注意力机制,使用ALBERT动态词向量表征方法对文本中的词进行表示;然后,利用TextCNN对文本进行综合语义表示;最后,分别采用交叉熵和KL散度度量标记数据和无标记数据的损失来训练模型.在金融文本数据集上验证了本文所提方法的有效性. |
Abstract_FL | With the continuous development of the digital financial service industry,the Internet and financial service systems have accumulated a large amount of text data.The automatic classification of financial events described in the financial text is a realistic demand of financial technology,and also a widespread concern in the field of natural language processing and machine learning.At present,the deep learning method has been widely used in text classification.Addressing the issues of lack of labeled data in multi label classification of financial events in text data,frequent resource consumption of existing deep learning methods,and failure to explore the specific characteristics of financial event texts,a semi-supervised multi-label classification method of financial events is proposed by using ALBERT,TextCNN and other presentation tools,introducing the subject word attention mechanism.Firstly,the problem of insufficient labeled data is alleviated through unsupervised data augmentation(UDA)methods;Secondly,the subject word attention mechanism is introduced,and the ALBERT dynamic word vector representation method is used to represent the words in the text;Then,TextCNN is used to represent the text comprehensively;Finally,cross entropy and KL divergence are used to measure the loss of labeled data and unlabeled data to train the model.The effectiveness of the proposed method is verified on the financial text dataset. |
Author | 李旸 杨卓峰 李德玉 |
AuthorAffiliation | 山西大学计算机与信息技术学院,太原 030006%山西财经大学金融学院,太原 030006%山西大学计算机与信息技术学院,太原 030006;计算智能与中文信息处理教育部重点实验室(山西大学),太原 030006 |
AuthorAffiliation_xml | – name: 山西大学计算机与信息技术学院,太原 030006%山西财经大学金融学院,太原 030006%山西大学计算机与信息技术学院,太原 030006;计算智能与中文信息处理教育部重点实验室(山西大学),太原 030006 |
Author_FL | YANG Zhuofeng LI Yang LI Deyu |
Author_FL_xml | – sequence: 1 fullname: YANG Zhuofeng – sequence: 2 fullname: LI Yang – sequence: 3 fullname: LI Deyu |
Author_xml | – sequence: 1 fullname: 杨卓峰 – sequence: 2 fullname: 李旸 – sequence: 3 fullname: 李德玉 |
BookMark | eNo9jz9LAzEYhzNUsNZ-B0eXO983SS-XUYr_oNBF55KkiXiUK3iIuDlZUW7ooIOiFBScHEQQteCnubvot7CiOD3wG54fzwKppcPUErKEEGLEmFhJQgTggQQmQgqUh0BDQKyR-v8-T5pZtqeBsohHKKM6geL12D_kZX7mr8f-5u5rNP68zYv382L6Ut5fVZORf_woT0_807S6fKueLxbJnFODzDb_2CA762vb7c2g093Yaq92ggyBYSAtN7QlRIzOIUijDGgdgxKaGm1QOiW1MwaRGx5rzVTfctBc2j7Vlrcsa5DlX--hSp1Kd3vJ8GA_nT32ssQkR2bwkwh0Fsi-AS-qWq4 |
ClassificationCodes | TP391 |
ContentType | Journal Article |
Copyright | Copyright © Wanfang Data Co. Ltd. All Rights Reserved. |
Copyright_xml | – notice: Copyright © Wanfang Data Co. Ltd. All Rights Reserved. |
DBID | 2B. 4A8 92I 93N PSX TCJ |
DOI | 10.16337/j.1004-9037.2024.02.011 |
DatabaseName | Wanfang Data Journals - Hong Kong WANFANG Data Centre Wanfang Data Journals 万方数据期刊 - 香港版 China Online Journals (COJ) China Online Journals (COJ) |
DatabaseTitleList | |
DeliveryMethod | fulltext_linktorsrc |
DocumentTitle_FL | Semi-supervised Multi-label Classification Method for Financial Events |
EndPage | 394 |
ExternalDocumentID | sjcjycl202402011 |
GrantInformation_xml | – fundername: (国家自然科学基金); (国家自然科学基金); (山西省青年科学研究项目); (山西省高等学校科技创新项目) funderid: (国家自然科学基金); (国家自然科学基金); (山西省青年科学研究项目); (山西省高等学校科技创新项目) |
GroupedDBID | 2B. 4A8 92I 93N ADMLS ALMA_UNASSIGNED_HOLDINGS PSX TCJ |
ID | FETCH-LOGICAL-s1031-9e4c257781ff109cac0bb80a7b2cbc19fa9bfcc114c48bb3ade40b49ed2be45e3 |
ISSN | 1004-9037 |
IngestDate | Thu May 29 04:00:12 EDT 2025 |
IsPeerReviewed | false |
IsScholarly | true |
Issue | 2 |
Keywords | 注意力机制 financial event 金融文本 semi-supervised method attention mechanism 金融事件 多标签分类 半监督方法 multi-label classification financial text |
Language | Chinese |
LinkModel | OpenURL |
MergedId | FETCHMERGED-LOGICAL-s1031-9e4c257781ff109cac0bb80a7b2cbc19fa9bfcc114c48bb3ade40b49ed2be45e3 |
PageCount | 10 |
ParticipantIDs | wanfang_journals_sjcjycl202402011 |
PublicationCentury | 2000 |
PublicationDate | 2024-03-01 |
PublicationDateYYYYMMDD | 2024-03-01 |
PublicationDate_xml | – month: 03 year: 2024 text: 2024-03-01 day: 01 |
PublicationDecade | 2020 |
PublicationTitle | 数据采集与处理 |
PublicationTitle_FL | Journal of Data Acquisition & Processing |
PublicationYear | 2024 |
Publisher | 山西大学计算机与信息技术学院,太原 030006%山西财经大学金融学院,太原 030006%山西大学计算机与信息技术学院,太原 030006 计算智能与中文信息处理教育部重点实验室(山西大学),太原 030006 |
Publisher_xml | – name: 山西大学计算机与信息技术学院,太原 030006%山西财经大学金融学院,太原 030006%山西大学计算机与信息技术学院,太原 030006 – name: 计算智能与中文信息处理教育部重点实验室(山西大学),太原 030006 |
SSID | ssib023646196 ssib001102757 ssib000459638 ssib001164671 ssib006568634 ssib002264227 ssib036439733 ssib057620134 ssib023167944 ssib051372606 |
Score | 2.376573 |
Snippet | TP391;... |
SourceID | wanfang |
SourceType | Aggregation Database |
StartPage | 385 |
Title | 一种半监督金融事件多标签分类方法 |
URI | https://d.wanfangdata.com.cn/periodical/sjcjycl202402011 |
Volume | 39 |
hasFullText | 1 |
inHoldings | 1 |
isFullTextHit | |
isPrint | |
link | http://utb.summon.serialssolutions.com/2.0.0/link/0/eLvHCXMwzR1NaxUxcKn14kUUFb-pYE6ydZPNZjfHpN1HEfTUQm9lk7erFHlCXyvYkycrSg896EFRBAVPHkQQteCvafv0XziTzetu2ydU8SCUZV52MjOZCcnMNpkJgqupSKMq7aahLSULOe_ysEiMDKuEphXFy5Luv-c3b4mZOX5jPpkfG7_fOrW0smwm7erIeyV_Y1VoA7viLdk_sOwuUWgAGOwLT7AwPA9lY5JzojM8rJCnRKUkmyZ5gs9MYYvURFIHTBMVk1wSiPyxJSMyd8jQXZFMO0ATLbC74kRCd0FUhPhIeZro3FEGXgJbNEV8wJGCaImAjkldxnLo6bq3CdERAsBL5V4ApClRNiRVy597vhl30gLf3e-Fjgz0zvzIZIwAcNPRPhSkAgAIl414k-AQtBsO_KzrCQ2_djDeHPdy89OhU_wDVSmAO15A0DECII9wr3KinIIBAMbIbQo12gyLY1_EAR1QojoOUM5iDll1WgRBK5IoBrN-yE65UQPxzjVYJmHpIiwZJVxGNMeeaBpQ7EhxD1r_HzD-P7TS2lnxxJOM6gw_w623zmPllxjW2kfjuo6Td8niug72gd1exC5hxOLkLvFJnDMuCa_fwvfmUu8v2sUH9i4iRej5HgmOMggvWetTjA9z9uxL4CKztHU6gGJSvlYYhZfRGWvf1xaZaNIuMsw20bp_jjUbBG3SXMYuKmjCroTGKRPN6YcEHJbIH5AZDtQfSkQNXP_N-N01xF5V9G63PObZE8FxH-pOqHrdOhmMrd45FURbXx4O3q9vrz8ZvNwYvHr7c23jx-v1rW9PtzY_b797sfNmbfDh-_bjR4OPmzvPv-58enY6mOvks1Mzoa_aEvaxZEwoS27BD0gzWlU0krawkTFZVKSGWWOprAppKmsp5ZZnxsRFt-SR4bLsMlPypIzPBOO9e73ybDBRxl2K5S4gyEm4SAx40kVVWkFLaTH2Ohdc8SNc8Ktyf2G_ic8fAudCcKxZay4G48tLK-UliDWWzWU3MX4BflLIrw |
linkProvider | Directory of Open Access Journals |
openUrl | ctx_ver=Z39.88-2004&ctx_enc=info%3Aofi%2Fenc%3AUTF-8&rfr_id=info%3Asid%2Fsummon.serialssolutions.com&rft_val_fmt=info%3Aofi%2Ffmt%3Akev%3Amtx%3Ajournal&rft.genre=article&rft.atitle=%E4%B8%80%E7%A7%8D%E5%8D%8A%E7%9B%91%E7%9D%A3%E9%87%91%E8%9E%8D%E4%BA%8B%E4%BB%B6%E5%A4%9A%E6%A0%87%E7%AD%BE%E5%88%86%E7%B1%BB%E6%96%B9%E6%B3%95&rft.jtitle=%E6%95%B0%E6%8D%AE%E9%87%87%E9%9B%86%E4%B8%8E%E5%A4%84%E7%90%86&rft.au=%E6%9D%A8%E5%8D%93%E5%B3%B0&rft.au=%E6%9D%8E%E6%97%B8&rft.au=%E6%9D%8E%E5%BE%B7%E7%8E%89&rft.date=2024-03-01&rft.pub=%E5%B1%B1%E8%A5%BF%E5%A4%A7%E5%AD%A6%E8%AE%A1%E7%AE%97%E6%9C%BA%E4%B8%8E%E4%BF%A1%E6%81%AF%E6%8A%80%E6%9C%AF%E5%AD%A6%E9%99%A2%2C%E5%A4%AA%E5%8E%9F+030006%25%E5%B1%B1%E8%A5%BF%E8%B4%A2%E7%BB%8F%E5%A4%A7%E5%AD%A6%E9%87%91%E8%9E%8D%E5%AD%A6%E9%99%A2%2C%E5%A4%AA%E5%8E%9F+030006%25%E5%B1%B1%E8%A5%BF%E5%A4%A7%E5%AD%A6%E8%AE%A1%E7%AE%97%E6%9C%BA%E4%B8%8E%E4%BF%A1%E6%81%AF%E6%8A%80%E6%9C%AF%E5%AD%A6%E9%99%A2%2C%E5%A4%AA%E5%8E%9F+030006&rft.issn=1004-9037&rft.volume=39&rft.issue=2&rft.spage=385&rft.epage=394&rft_id=info:doi/10.16337%2Fj.1004-9037.2024.02.011&rft.externalDocID=sjcjycl202402011 |
thumbnail_s | http://utb.summon.serialssolutions.com/2.0.0/image/custom?url=http%3A%2F%2Fwww.wanfangdata.com.cn%2Fimages%2FPeriodicalImages%2Fsjcjycl%2Fsjcjycl.jpg |