Automatic segmentation of speech recorded in unknown noisy channel characteristics

This paper investigates the problem of automatic segmentation of speech recorded in noisy channel corrupted environments. Using an HMM-based speech segmentation algorithm, speech enhancement and parameter compensation techniques previously proposed for robust speech recognition are evaluated and com...

Full description

Saved in:
Bibliographic Details
Published inSpeech communication Vol. 25; no. 1; pp. 97 - 116
Main Authors Pellom, Bryan L., Hansen, John H.L.
Format Journal Article Conference Proceeding
LanguageEnglish
Published Amsterdam Elsevier B.V 01.08.1998
Elsevier
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:This paper investigates the problem of automatic segmentation of speech recorded in noisy channel corrupted environments. Using an HMM-based speech segmentation algorithm, speech enhancement and parameter compensation techniques previously proposed for robust speech recognition are evaluated and compared for improved segmentation in colored noise. Speech enhancement algorithms considered include: Generalized Spectral Subtraction, Nonlinear Spectral Subtraction, Ephraim–Malah MMSE enhancement, and Auto-LSP Constrained Iterative Wiener filtering. In addition, the Parallel Model Combination (PMC) technique is also compared for additive noise compensation. In telephone environments, we compare channel normalization techniques including Cepstral Mean Normalization (CMN) and Signal Bias Removal (SBR) and consider the coupling of channel compensation with front-end speech enhancement for improved automatic segmentation. Compensation performance is assessed for each method by automatically segmenting TIMIT degraded by additive colored noise (i.e., aircraft cockpit, automobile highway, etc.), telephone transmitted NTIMIT, and cellular telephone transmitted CTIMIT databases. Untersucht wird die automatische Sprachsegmentierung, sofern der aufgenommenen Sprache additives Rauschen überlagert ist. In der Vergangenheit für die robuste Spracherkennung vorgeschlagene Verfahren zur Qualitätssteigerung werden unter Verwendung eines HMM-Modells zur Sprachsegmentierung bezüglich ihrer Eignung zur verbesserten Sprachsegmentierung in farbigem Rauschen untersucht und verglichen. Die untersuchten Verfahren sind: Verallgemeinerte spektrale Subtraktion (Generalized Spectral Subtraction), nichtlineare spektrale Subtraktion (Nonlinear Spectral Subtraction), Ephraim–Malah MMSE sowie iterative Wiener-Filterung (Auto-LSP Constrained Iterative Wiener filtering). Zusätzlich erfolgt ein Vergleich mit dem PMC-Verfahren (Parallel Model Combination) bezüglich der Kompensation additiven Rauschens. Die Kanalnormierungsverfahren (Channel Normalization) CNN (Cepstral Mean Normalization) und SBR (Signal Bias Removal) sowie die Kopplung von Kanal-Kompensation mit Front-end-Sprachqualitätssteigerung für die verbesserte Sprachsegmentierung werden für Telefonierkanäle untersucht. Die Beurteilung der Güte der Kompensation erfolgt für jedes der Verfahren anhand der automatische Segmentierung von durch additives farbiges Rauschen gestörten TIMIT-Daten (z.B. Flugzeug-Cockpit, typische KFZ-Umgebung), NTIMIT-Daten (leitungsgebundene Telefonierkanäle) und CTIMIT (zellulare Mobilfunkkanäle) Daten. Dans cet article, nous étudions le problème de la segmentation automatique du signal de parole enregistré dans un environnement bruité. Des techniques de rehaussement de la parole et de compensation de paramètres basées sur les modèles de Markov cachés (HMM), et récemment proposées pour la reconnaissance robuste de la parole, sont évaluées et comparées afin d'améliorer la segmentation automatique dans le cas de bruit coloré. Les techniques de rehaussement de la parole considérées ici sont: la Soustraction Spectrale Généralisée, la Soustraction Spectral Non Lineaire, le Rehaussement MMSE d'Ephraim–Malah, et le Filtrage Itératif de Wiener avec Contrainte Auto-LSP. De plus, la technique de Combinaison Parallèle de Modèles (PMC) est également comparée dans le cas de la compensation de bruit additif. Pour les applications téléphoniques, nous comparons les techniques de normalisation du canal de transmission, Normalisation de la Moyenne Cepstrale, annulation du biais du signal (SBR), et considérons une méthode de couplage de compensation du canal de transmission avec le rehaussement de la parole dans l'étage de pré-traitement afin d'améliorer la segmentation automatique. La qualité de la segmentation résultante est évaluée pour chaque méthode de compensation sur base des données TIMIT dégradées par du bruit additif coloré (à savoir, poste de pilotage d'un avion, autoroute, etc.), les données NTIMIT de parole transmise sur ligne téléphonique, et finalement CTIMIT correspondant à la transmission à partir de téléphones cellulaires.
Bibliography:ObjectType-Article-1
SourceType-Scholarly Journals-1
ObjectType-Feature-2
content type line 23
ISSN:0167-6393
1872-7182
DOI:10.1016/S0167-6393(98)00031-4