基于对抗网络的声纹识别域迁移算法

TP391; 针对声纹识别任务中常常出现的由于真实场景语音与模型训练语料在内部特征(情感、语言、说话风格、年龄)或外部特征(背景噪声、传输信号、麦克风、室内混响)等方面的差异所导致的模型识别率低的问题,提出了一种基于对抗网络的声纹识别域迁移算法.首先,利用源域语音对X-Vector的声纹识别模型进行训练;然后,采用域迁移方法将源域训练的X-Vector模型迁移至目标域训练数据;最后,在目标域测试数据上检测迁移后的模型性能,并将其与迁移前的模型性能进行对比.实验中采用AISHELL1作为源域,采用VoxCeleb1和CN-Celeb分别作为目标域对算法性能进行测试.实验结果表明,采用本文方法进行...

Full description

Saved in:
Bibliographic Details
Published in华东理工大学学报(自然科学版) Vol. 48; no. 2; pp. 231 - 236
Main Authors 季敏飞, 陈宁
Format Journal Article
LanguageChinese
Published 华东理工大学信息科学与工程学院,上海 200237 2022
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:TP391; 针对声纹识别任务中常常出现的由于真实场景语音与模型训练语料在内部特征(情感、语言、说话风格、年龄)或外部特征(背景噪声、传输信号、麦克风、室内混响)等方面的差异所导致的模型识别率低的问题,提出了一种基于对抗网络的声纹识别域迁移算法.首先,利用源域语音对X-Vector的声纹识别模型进行训练;然后,采用域迁移方法将源域训练的X-Vector模型迁移至目标域训练数据;最后,在目标域测试数据上检测迁移后的模型性能,并将其与迁移前的模型性能进行对比.实验中采用AISHELL1作为源域,采用VoxCeleb1和CN-Celeb分别作为目标域对算法性能进行测试.实验结果表明,采用本文方法进行迁移后,在VoxCeleb1和CN-Celeb的目标域测试集上的等错误率分别下降了21.46%和19.24%.
ISSN:1006-3080
DOI:10.14135/j.cnki.1006-3080.20201209001