面向性别识别的基于GAN的域自适应模型

TP391; 在实际应用场景中,由于实际语音数据与模型训练数据存在较大差异,导致基于音频的性别识别模型的性能严重下降.为了解决这一问题,提出了一种结合生成对抗网络(GAN)和GhostVLAD层的域自适应模型.基于GhostVLAD的引入可有效减少语音中噪声和无关信息的干扰,而基于GAN思想的训练方法可以实现模型对目标域数据的自适应.在对抗训练中,通过引入辅助损失保持网络对性别特征的表征能力.采用Voxceleb1数据集作为源域,Audioset和Movie数据集分别作为目标域,对本文的域自适应模型的性能进行测试实验.实验结果表明,相比于基于卷积神经网络的性别识别模型,本文模型可将性别识别的准...

Full description

Saved in:
Bibliographic Details
Published in华东理工大学学报(自然科学版) Vol. 48; no. 3; pp. 360 - 365
Main Authors 吕乔健, 陈宁
Format Journal Article
LanguageChinese
Published 华东理工大学信息科学与工程学院,上海 200237 01.06.2022
Subjects
Online AccessGet full text
ISSN1006-3080
DOI10.14135/j.cnki.1006-3080.20210104002

Cover

Loading…
More Information
Summary:TP391; 在实际应用场景中,由于实际语音数据与模型训练数据存在较大差异,导致基于音频的性别识别模型的性能严重下降.为了解决这一问题,提出了一种结合生成对抗网络(GAN)和GhostVLAD层的域自适应模型.基于GhostVLAD的引入可有效减少语音中噪声和无关信息的干扰,而基于GAN思想的训练方法可以实现模型对目标域数据的自适应.在对抗训练中,通过引入辅助损失保持网络对性别特征的表征能力.采用Voxceleb1数据集作为源域,Audioset和Movie数据集分别作为目标域,对本文的域自适应模型的性能进行测试实验.实验结果表明,相比于基于卷积神经网络的性别识别模型,本文模型可将性别识别的准确率分别提高5.13%和7.72%.
ISSN:1006-3080
DOI:10.14135/j.cnki.1006-3080.20210104002