基于注意力机制的多任务3D CNN-BLSTM情感语音识别
TP391.7; 语音情感识别广泛应用于车载驾驶系统、服务行业、教育以及医疗等各个领域.为了使计算机能更准确地识别出说话人的情感,提出了一种基于注意力机制的多任务三维卷积神经网络(Convolution Neural Network,CNN)和双向长短期记忆网络(Bidirectional Long-Short Term Memory,BLSTM)相结合的情感语音识别方法(3D CNN-BLSTM).基于多谱特征融合组图,利用三维卷积神经网络提取深层语音情感特征,结合性别分类的多任务学习机制提升语音情感识别准确率.在CASIA汉语情感语料库上的实验结果表明,该方法获得了较高的准确率....
Saved in:
Published in | 华东理工大学学报(自然科学版) Vol. 48; no. 4; pp. 534 - 542 |
---|---|
Main Authors | , , |
Format | Journal Article |
Language | Chinese |
Published |
华东理工大学信息科学与工程学院,上海 200237
2022
|
Subjects | |
Online Access | Get full text |
Cover
Loading…
Summary: | TP391.7; 语音情感识别广泛应用于车载驾驶系统、服务行业、教育以及医疗等各个领域.为了使计算机能更准确地识别出说话人的情感,提出了一种基于注意力机制的多任务三维卷积神经网络(Convolution Neural Network,CNN)和双向长短期记忆网络(Bidirectional Long-Short Term Memory,BLSTM)相结合的情感语音识别方法(3D CNN-BLSTM).基于多谱特征融合组图,利用三维卷积神经网络提取深层语音情感特征,结合性别分类的多任务学习机制提升语音情感识别准确率.在CASIA汉语情感语料库上的实验结果表明,该方法获得了较高的准确率. |
---|---|
ISSN: | 1006-3080 |
DOI: | 10.14135/j.cnki.1006-3080.20210326001 |