融合群助教模型的两阶段知识蒸馏文本分类方法
TP391; 针对Transformer架构的预训练语言模型进行文本分类时性能较优的模型存在参数量多、训练开销大以及推理时延高的问题,提出了一种融合群助教模型的两阶段知识蒸馏文本分类方法,其中群助教模型(Group assistant models,GAM)由图卷积神经网络助教模型(Graph convolution network assistant model,GCNAM)和Transformer助教模型组成,该方法将教师模型的知识经过 Transformer 助教模型传递蒸馏到学生模型中,期间通过图卷积神经网络助教模型对两阶段蒸馏过程进行指导.同时,针对模型中间层的知识蒸馏,提出了一种渐...
Saved in:
Published in | 常州大学学报(自然科学版) Vol. 36; no. 6; pp. 71 - 82 |
---|---|
Main Authors | , , , |
Format | Journal Article |
Language | Chinese |
Published |
江苏省物联网移动互联技术工程实验室,江苏 淮安 223001
2024
淮阴工学院 计算机与软件工程学院,江苏 淮安 223003 |
Subjects | |
Online Access | Get full text |
ISSN | 2095-0411 |
DOI | 10.3969/j.issn.2095-0411.2024.06.009 |
Cover
Loading…
Summary: | TP391; 针对Transformer架构的预训练语言模型进行文本分类时性能较优的模型存在参数量多、训练开销大以及推理时延高的问题,提出了一种融合群助教模型的两阶段知识蒸馏文本分类方法,其中群助教模型(Group assistant models,GAM)由图卷积神经网络助教模型(Graph convolution network assistant model,GCNAM)和Transformer助教模型组成,该方法将教师模型的知识经过 Transformer 助教模型传递蒸馏到学生模型中,期间通过图卷积神经网络助教模型对两阶段蒸馏过程进行指导.同时,针对模型中间层的知识蒸馏,提出了一种渐进式知识蒸馏策略,根据模型知识分布密度调整教师模型被蒸馏的层级.根据多个数据集的实验结果,文中方法均优于基线方法,并以最高损失 0.73%的F1 值为代价,将模型参数量降低了 48.20%,推理速度提升了 56.94%. |
---|---|
ISSN: | 2095-0411 |
DOI: | 10.3969/j.issn.2095-0411.2024.06.009 |