采用表示分离自编码器的任意说话人语音转换

TP391.42; 针对非平行语料库下任意说话人之间的语音转换存在语言内容信息和说话人个性特征难以分离,从而导致语音转换的性能不佳的问题,提出了一种采用表示分离自编码器的语音转换方法 RSAE-VC.该方法将语音信号的说话人个性特征视为时不变,而将内容信息视为时变,利用编码器中的实例归一化和激活引导层将两者进行分离,再由解码器将源语音的内容信息与目标语音的个性特征进行合成,从而生成转换后的语音.实验结果表明,RSAE-VC在梅尔倒谱距离上比现有的AGAIN-VC转换方法平均降低了 3.11%,在基音频率均方根误差上降低了2.41%,MOS分和ABX值分别提升了 5.22%和 8.45%.RSA...

Full description

Saved in:

Bibliographic Details
Published in	通信学报 Vol. 45; no. 2; pp. 162 - 172
Main Authors	简志华, 章子旭
Format	Journal Article
Language	Chinese
Published	杭州电子科技大学通信工程学院,浙江杭州 310018 25.02.2024
Subjects	adaptive instance normalization self-content loss 自适应实例归一化 self-speaker loss 表示分离自说话人损失 representation separation 语音转换自内容损失 voice conversion
Online Access	Get full text
ISSN	1000-436X
DOI	10.11959/j.issn.1000-436x.2024044

Cover

More Information
Summary:	TP391.42; 针对非平行语料库下任意说话人之间的语音转换存在语言内容信息和说话人个性特征难以分离,从而导致语音转换的性能不佳的问题,提出了一种采用表示分离自编码器的语音转换方法 RSAE-VC.该方法将语音信号的说话人个性特征视为时不变,而将内容信息视为时变,利用编码器中的实例归一化和激活引导层将两者进行分离,再由解码器将源语音的内容信息与目标语音的个性特征进行合成,从而生成转换后的语音.实验结果表明,RSAE-VC在梅尔倒谱距离上比现有的AGAIN-VC转换方法平均降低了 3.11%,在基音频率均方根误差上降低了2.41%,MOS分和ABX值分别提升了 5.22%和 8.45%.RSAE-VC方法通过自内容损失进行约束使语音更好地保留内容信息,通过自说话人损失将说话人个性特征更好地从语音中分离,可以确保说话人个性特征尽少地遗留在内容信息中,从而提高语音转换性能.
ISSN:	1000-436X
DOI:	10.11959/j.issn.1000-436x.2024044