基于二阶段对比学习的中文自动文本摘要方法研究

TP391; 在中文自动文本摘要中,暴露偏差是一个常见的现象.由于中文文本自动摘要在序列到序列模型训练时解码器每一个词输入都来自真实样本,但是在测试时当前输入用的却是上一个词的输出,导致预测词在训练和测试时是从不同的分布中推断出来的,而这种不一致将导致训练模型和测试模型直接的差异.本文提出了一个两阶段对比学习框架以实现面向中文文本的生成式摘要训练,同时从摘要模型的训练以及摘要评价的建模进行对比学习.在大规模中文短文本摘要数据集(LCSTS)以及自然语言处理与中文计算会议的文本数据集(NLPCC)上的实验结果表明,相比于基线模型,本文方法可以获得更高的面向召回率的摘要评价方法(ROUGE)指标,...

Full description

Saved in:
Bibliographic Details
Published in华东理工大学学报(自然科学版) Vol. 50; no. 4; pp. 586 - 593
Main Authors 杨子健, 郭卫斌
Format Journal Article
LanguageChinese
Published 华东理工大学信息科学与工程学院,上海 200237 01.08.2024
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:TP391; 在中文自动文本摘要中,暴露偏差是一个常见的现象.由于中文文本自动摘要在序列到序列模型训练时解码器每一个词输入都来自真实样本,但是在测试时当前输入用的却是上一个词的输出,导致预测词在训练和测试时是从不同的分布中推断出来的,而这种不一致将导致训练模型和测试模型直接的差异.本文提出了一个两阶段对比学习框架以实现面向中文文本的生成式摘要训练,同时从摘要模型的训练以及摘要评价的建模进行对比学习.在大规模中文短文本摘要数据集(LCSTS)以及自然语言处理与中文计算会议的文本数据集(NLPCC)上的实验结果表明,相比于基线模型,本文方法可以获得更高的面向召回率的摘要评价方法(ROUGE)指标,并能更好地解决暴露偏差问题.
ISSN:1006-3080
DOI:10.14135/j.cnki.1006-3080.20230713001