一种针对BERT模型的多教师蒸馏方案

TP391.1; 在传统的知识蒸馏中,若教师、学生模型的参数规模差距过大,则会出现学生模型无法学习较大教师模型的负面结果.为了获得在不同任务上均拥有较好表现的学生模型,深入研究了现有的模型蒸馏方法、不同教师模型的优缺点,提出了一种新型的来自Transformers的双向编码器表示(Bidrectional Enoceder Respresentations from Transformers,BERT)模型的多教师蒸馏方案,即使用BERT、鲁棒优化的BERT方法(Robustly optimized BERT approach,RoBERTa)、语言理解的广义自回归预训练模型(XLNET)等多...

Full description

Saved in:

Bibliographic Details
Published in	华东理工大学学报（自然科学版） Vol. 50; no. 2; pp. 293 - 300
Main Authors	石佳来, 郭卫斌
Format	Journal Article
Language	Chinese
Published	华东理工大学信息科学与工程学院,上海 200237 01.05.2024
Subjects	Transformer蒸馏自然语言理解 nature language understanding 知识蒸馏 multi-teacher distillation BERT Transformer distillation knowledge distillation 多教师蒸馏
Online Access	Get full text

Cover

Loading…

More Information
Summary:	TP391.1; 在传统的知识蒸馏中,若教师、学生模型的参数规模差距过大,则会出现学生模型无法学习较大教师模型的负面结果.为了获得在不同任务上均拥有较好表现的学生模型,深入研究了现有的模型蒸馏方法、不同教师模型的优缺点,提出了一种新型的来自Transformers的双向编码器表示(Bidrectional Enoceder Respresentations from Transformers,BERT)模型的多教师蒸馏方案,即使用BERT、鲁棒优化的BERT方法(Robustly optimized BERT approach,RoBERTa)、语言理解的广义自回归预训练模型(XLNET)等多个拥有BERT结构的教师模型对其进行蒸馏,同时修改了对教师模型中间层知识表征的蒸馏方案,加入了对Transformer层的蒸馏.该蒸馏方案在通用语言理解评估(General Language Understanding Evaluation,GLUE)中的多个数据集上的实验结果表明,最终蒸馏实验的结果较为理想,可以保留教师模型95.1％的准确率.
ISSN:	1006-3080
DOI:	10.14135/j.cnki.1006-3080.20230118001