The intelligibility of consonants in noisy vowel–consonant–vowel sequences when the vowels are selectively enhanced

The performance of speech enhancement algorithms deteriorates rapidly with decreasing signal-to-noise ratio (SNR). At a low SNR, high-intensity phonemes such as vowels are therefore more likely to be enhanced than low-intensity speech segments such as many consonants. Although the selective enhancem...

Full description

Saved in:
Bibliographic Details
Published inSpeech communication Vol. 41; no. 2; pp. 429 - 440
Main Authors Meyer, Georg, Morse, Robert
Format Journal Article
LanguageEnglish
Published Elsevier B.V 01.10.2003
Subjects
Online AccessGet full text
ISSN0167-6393
1872-7182
DOI10.1016/S0167-6393(03)00013-X

Cover

More Information
Summary:The performance of speech enhancement algorithms deteriorates rapidly with decreasing signal-to-noise ratio (SNR). At a low SNR, high-intensity phonemes such as vowels are therefore more likely to be enhanced than low-intensity speech segments such as many consonants. Although the selective enhancement of vowels enhances transitional cues for consonant recognition, it simultaneously degrades relative amplitude cues. Experiments with normal-hearing subjects were performed to determine the overall effect of selective enhancement of vowels on the intelligibility of consonants in consonant–vowel–consonant utterances. In quiet, a 12-dB enhancement of the vowels did not significantly reduce consonant intelligibility compared with an unenhanced control condition at 65 dB (A). When unenhanced utterances were presented in background noise with an average SNR of −6 dB at the vowel segments, 50.1% of the consonants were correctly identified while 69.8% of consonants were recognised in a condition where the consonant SNR remained unchanged but where the vowels were selectively amplified by 12 dB. Equal enhancement of the vowels and consonants by 12 dB, however, led to 91.5% consonant recognition. We conclude that speech enhancement algorithms should enhance all speech segments to the greatest possible extent, even if this leads to selective enhancement of some phoneme categories over others. La performance des algorithmes de renforcement du langage baisse rapidement avec le rapport signal sur bruit (SNR). A faible SNR, la probabilité de renforcement des phonèmes à haute intensité, tels que certaines voyelles, est plus grande que celle de la plupart des consonnes. Même si le renforcement sélectif des consonnes améliore la reconnaissance des voyelles, il diminue, d’autre part, les amplitudes relatives. Nous avons mené des expériences sur des sujets bien-entendants afin de déterminer l’effet global que peut avoir le renforcement sélectif des voyelles sur la compréhension des consonnes dans des phonèmes consonne–voyelle–consonne. En l’absence de bruit, si l’on compare avec les conditions de contrôle de non-renforcement à 65 dB (A), le renforcement des voyelles par 12 dB n’affecte guère la compréhension des consonnes. En présence d’un bruit de fond correspondant à un SNR de −6 dB, une fraction de 50,1% des phonèmes non-renforcés ont été reconnus, alors que ce taux augmentait à 69,8% avec le même SNR mais un renforcement sélectif des voyelles de 12 dB. Or, un renforcement simultané des voyelles et des consonnes de 12 dB, donnait un taux de reconnaissance des consonnes de 91,5%. En conclusion, les algorithmes de renforcement du langage devraient agir le plus fortement possible sur l’ensemble des éléments du langage, même si cela résulte en un renforcement sélectif de certaines catégories de phonèmes, au détriment d’autres. Die Leistungsfähigkeit störgeräuschreduzierender Algorithmen nimmt mit sinkendem Signal-Rausch-Verhältnis (SNR) rapide ab. Bei niedrigen SNR-Werten werden daher energetische Phoneme, zum Beispiel Vokale, in stärkerem Ausmaß verbessert als viele Konsonanten, die inhärent wenig energetisch sind. Eine selektive Verbesserung von Vokalen hebt Formantentransitionen hervor, die für die Erkennung von Konsonanten wichtig sind, verzerrt aber gleichzeitig relative Intensitätsmerkmale. Der Gesamteffekt von selektiver Störgeräuschreduktion auf die Verständlichkeit von Konsonanten in Konsonant–Vokal–Konsonant Lauten wurde experimentell untersucht. Ohne Hintergrundrauschen unterscheidet sich die Erkennbarkeit von Konsonanten nach einer selektiven Verstärkung von Vokalen um 12 dB nicht signifikant von der Erkennbarkeit der Originallaute bei einer Lautstärke von 65 dB (A). Die Erkennungsrate für Konsonanten in den Originallauten zusammen mit Hintergrundrauschen von durchschnittlich −6 dB SNR betrug 50,1%, während 69,8% der Konsonanten richtig identifiziert werden konnten, wenn die Vokale selektiv um 12 dB verstärkt wurden. Eine gleichzeitige Verstärkung von Vokalen und Konsonanten erlaubte eine Erkennung von 91,5% aller Konsonanten. Wir folgern, dass störgeräuschreduzierende Algorithmen alle Sprachsegmente in der bestmöglichen Weise verbessern sollten, selbst wenn dies zu einer selektiven Verbesserung von einigen Phonemkategorien im Vergleich zu anderen führt.
Bibliography:ObjectType-Article-1
SourceType-Scholarly Journals-1
ObjectType-Feature-2
content type line 23
ISSN:0167-6393
1872-7182
DOI:10.1016/S0167-6393(03)00013-X