Exploring Wav2vec 2.0 Fine Tuning for Improved Speech Emotion Recognition

While Wav2Vec 2.0 has been proposed for speech recognition (ASR), it can also be used for speech emotion recognition (SER); its performance can be significantly improved using different fine-tuning strategies. Two baseline methods, vanilla fine-tuning (V-FT) and task adaptive pretraining (TAPT) are...

Full description

Saved in:

Bibliographic Details
Published in	Proceedings of the ... IEEE International Conference on Acoustics, Speech and Signal Processing (1998) pp. 1 - 5
Main Authors	Chen, Li-Wei, Rudnicky, Alexander
Format	Conference Proceeding
Language	English
Published	IEEE 04.06.2023
Subjects	Codes deep neural networks Emotion recognition fine-tuning pretrained models Signal processing Signal processing algorithms Speech coding Speech emotion recognition Speech recognition Task analysis wav2vec 2.0
Online Access	Get full text

Cover

Loading…

Be the first to leave a comment!