面向性别识别的基于GAN的域自适应模型
TP391; 在实际应用场景中,由于实际语音数据与模型训练数据存在较大差异,导致基于音频的性别识别模型的性能严重下降.为了解决这一问题,提出了一种结合生成对抗网络(GAN)和GhostVLAD层的域自适应模型.基于GhostVLAD的引入可有效减少语音中噪声和无关信息的干扰,而基于GAN思想的训练方法可以实现模型对目标域数据的自适应.在对抗训练中,通过引入辅助损失保持网络对性别特征的表征能力.采用Voxceleb1数据集作为源域,Audioset和Movie数据集分别作为目标域,对本文的域自适应模型的性能进行测试实验.实验结果表明,相比于基于卷积神经网络的性别识别模型,本文模型可将性别识别的准...
Saved in:
Published in | 华东理工大学学报(自然科学版) Vol. 48; no. 3; pp. 360 - 365 |
---|---|
Main Authors | , |
Format | Journal Article |
Language | Chinese |
Published |
华东理工大学信息科学与工程学院,上海 200237
01.06.2022
|
Subjects | |
Online Access | Get full text |
ISSN | 1006-3080 |
DOI | 10.14135/j.cnki.1006-3080.20210104002 |
Cover
Loading…
Summary: | TP391; 在实际应用场景中,由于实际语音数据与模型训练数据存在较大差异,导致基于音频的性别识别模型的性能严重下降.为了解决这一问题,提出了一种结合生成对抗网络(GAN)和GhostVLAD层的域自适应模型.基于GhostVLAD的引入可有效减少语音中噪声和无关信息的干扰,而基于GAN思想的训练方法可以实现模型对目标域数据的自适应.在对抗训练中,通过引入辅助损失保持网络对性别特征的表征能力.采用Voxceleb1数据集作为源域,Audioset和Movie数据集分别作为目标域,对本文的域自适应模型的性能进行测试实验.实验结果表明,相比于基于卷积神经网络的性别识别模型,本文模型可将性别识别的准确率分别提高5.13%和7.72%. |
---|---|
ISSN: | 1006-3080 |
DOI: | 10.14135/j.cnki.1006-3080.20210104002 |