一种基于时频跨域特征选择的语音分离方法

本发明公开了一种基于时频跨域特征选择的语音分离方法,属于单声道语音分离领域。该方法包括:分别使用一维卷积神经网络与短时傅立叶变换对单通道语音进行编码;将使用两种方式编码得到的特征图进行融合;根据融合得到的特征图,采用分离网络为每个说话人计算一个掩码;将得到的掩码作用于融合的特征图上,得到每个说话人的分离特征图;基于每个说话人的分离特征图,得到每个说话人的语音。本发明将语音分离中的特征选择经过跨域混合,时域和频率域特征相互补充,在多说话人噪声环境下也能准确捕捉语音的特征信号,克服了业界内对于时域以及时频域特征利用不充分的问题,克服了以往在不平稳噪声环境下分离不佳的问题。 The present...

Full description

Saved in:
Bibliographic Details
Format Patent
LanguageChinese
Published 11.10.2022
Subjects
Online AccessGet full text

Cover

More Information
Summary:本发明公开了一种基于时频跨域特征选择的语音分离方法,属于单声道语音分离领域。该方法包括:分别使用一维卷积神经网络与短时傅立叶变换对单通道语音进行编码;将使用两种方式编码得到的特征图进行融合;根据融合得到的特征图,采用分离网络为每个说话人计算一个掩码;将得到的掩码作用于融合的特征图上,得到每个说话人的分离特征图;基于每个说话人的分离特征图,得到每个说话人的语音。本发明将语音分离中的特征选择经过跨域混合,时域和频率域特征相互补充,在多说话人噪声环境下也能准确捕捉语音的特征信号,克服了业界内对于时域以及时频域特征利用不充分的问题,克服了以往在不平稳噪声环境下分离不佳的问题。 The present invention discloses a speech separation method based on time-frequency cross-domain feature selection, belonging to the field of mono speech separation. The method includes: encoding a single-channel speech by using a one-dimensional convolutional neural network and short-time Fourier transform respectively; fusing feature maps obtained by encoding in two ways; calculating a mask for each speaker by using a separation network according to a feature map obtained by fusion; applying the obtained mask to the fused feature map to obtain a separated feature map of each speaker; and obtaining a speech of each speaker based on the separated feature map of each speaker. Feature selection in speech separation is subjected t
Bibliography:Application Number: CN202110471865