基于梯度权重变化训练策略的低资源机器翻译
TP391; 近年来Transformer等神经网络模型在机器翻译上取得了显著的成功,但训练这些模型需要依靠丰富的有标签数据,而低资源机器翻译因受限于平行语料库的规模,导致训练得到的模型表现不佳,同时很容易针对高频词汇过度拟合,从而降低模型在测试集上的泛化能力.为了缓解这一现象,提出了一种梯度权重变化的策略,即在Adam算法基础上为每一个新批次所产生的梯度乘以一个系数.该系数递增变化,旨在在训练早期削弱对高频特征的依赖,而在训练后期保持算法的快速收敛优势.介绍了模型改进后的训练流程,其中包括系数的调整和衰减,以实现在不同训练阶段的不同侧重.这种策略的目标是增加对低频词汇的关注度,防止模型对高频...
Saved in:
Published in | 计算机科学与探索 Vol. 18; no. 3; pp. 731 - 739 |
---|---|
Main Authors | , , |
Format | Journal Article |
Language | Chinese |
Published |
昆明理工大学 信息工程与自动化学院,昆明 650500
01.03.2024
昆明理工大学 云南省人工智能重点实验室,昆明 650500 |
Subjects | |
Online Access | Get full text |
ISSN | 1673-9418 |
DOI | 10.3778/j.issn.1673-9418.2211078 |
Cover
Summary: | TP391; 近年来Transformer等神经网络模型在机器翻译上取得了显著的成功,但训练这些模型需要依靠丰富的有标签数据,而低资源机器翻译因受限于平行语料库的规模,导致训练得到的模型表现不佳,同时很容易针对高频词汇过度拟合,从而降低模型在测试集上的泛化能力.为了缓解这一现象,提出了一种梯度权重变化的策略,即在Adam算法基础上为每一个新批次所产生的梯度乘以一个系数.该系数递增变化,旨在在训练早期削弱对高频特征的依赖,而在训练后期保持算法的快速收敛优势.介绍了模型改进后的训练流程,其中包括系数的调整和衰减,以实现在不同训练阶段的不同侧重.这种策略的目标是增加对低频词汇的关注度,防止模型对高频词汇的过拟合.在三个低资源的双语数据集上进行了翻译任务实验,该方法在测试集上相对于基线模型分别提升了0.72、1.37和1.04个BLEU得分. |
---|---|
ISSN: | 1673-9418 |
DOI: | 10.3778/j.issn.1673-9418.2211078 |