跨域注意力特征融合的说话人确认方法

TN912.34; 针对目前说话人确认系统中前端特征的语音信号样点间结构信息缺失问题,提出了跨域注意力特征融合的说话人确认方法.首先,提出了一种基于图信号处理的图频域特征提取方法来有效利用语音信号的结构信息,将语音信号帧的每个样点作为图节点,构建语音图信号,通过图傅里叶变换以及滤波器组提取图频域特征.其次,提出了一种由残差模块与挤压-激励模块构成的注意力特征融合网络,对传统时频域特征与图频域特征进行跨域融合,来提升说话人确认系统的性能.最后,在 VoxCeleb、SITW 和 CN-Celeb 数据集上进行实验.实验结果表明,所提方法在等错误率以及最小检测代价函数的评价指标上,优于基线模型EC...

Full description

Saved in:
Bibliographic Details
Published in通信学报 Vol. 44; no. 8; pp. 89 - 98
Main Authors 杨震, 王天朗, 郭海燕, 王婷婷
Format Journal Article
LanguageChinese
Published 南京邮电大学通信与信息工程学院,江苏 南京 210003 2023
南京邮电大学通信与网络技术国家地方联合工程研究中心,江苏 南京 210003%南京邮电大学通信与信息工程学院,江苏 南京 210003
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:TN912.34; 针对目前说话人确认系统中前端特征的语音信号样点间结构信息缺失问题,提出了跨域注意力特征融合的说话人确认方法.首先,提出了一种基于图信号处理的图频域特征提取方法来有效利用语音信号的结构信息,将语音信号帧的每个样点作为图节点,构建语音图信号,通过图傅里叶变换以及滤波器组提取图频域特征.其次,提出了一种由残差模块与挤压-激励模块构成的注意力特征融合网络,对传统时频域特征与图频域特征进行跨域融合,来提升说话人确认系统的性能.最后,在 VoxCeleb、SITW 和 CN-Celeb 数据集上进行实验.实验结果表明,所提方法在等错误率以及最小检测代价函数的评价指标上,优于基线模型ECAPA-TDNN.
ISSN:1000-436X
DOI:10.11959/j.issn.1000-436x.2023142