TWO-PASS END TO END SPEECH RECOGNITION

Two-pass automatic speech recognition (ASR) models can be used to perform streaming on- device ASR to generate a text representation of an utterance captured in audio data. Various implementations include a first-pass portion of the ASR model used to generate streaming candidate recognition(s) of an...

Full description

Saved in:

Bibliographic Details
Main Authors	SAINATH, Tara C, HE, Yanzhang, LIANG, Qiao, PANG, Ruoming, STROHMAN, Trevor, PRABHAVALKAR, Rohit, RYBACH, David, LI, Wei, VISONTAI, Mirkó, MCGRAW, Ian C, WU, Yonghui, CHIU, Chung-Cheng
Format	Patent
Language	English French
Published	10.12.2020
Subjects	ACOUSTICS CALCULATING COMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS COMPUTING COUNTING MUSICAL INSTRUMENTS PHYSICS SPEECH ANALYSIS OR SYNTHESIS SPEECH OR AUDIO CODING OR DECODING SPEECH OR VOICE PROCESSING SPEECH RECOGNITION
Online Access	Get full text

Cover

Loading…

More Information
Summary:	Two-pass automatic speech recognition (ASR) models can be used to perform streaming on- device ASR to generate a text representation of an utterance captured in audio data. Various implementations include a first-pass portion of the ASR model used to generate streaming candidate recognition(s) of an utterance captured in audio data. For example, the first-pass portion can include a recurrent neural network transformer (RNN-T) decoder. Various implementations include a second-pass portion of the ASR model used to revise the streaming candidate recognition(s) of the utterance and generate a text representation of the utterance. For example, the second-pass portion can include a listen attend spell (LAS) decoder. Various implementations include a shared encoder shared between the RNN-T decoder and the LAS decoder. Selon l'invention, des modèles de reconnaissance automatique de la parole (RAP) à deux passages peuvent être utilisés pour effectuer une RAP sur dispositif de diffusion en continu pour générer une représentation textuelle d'un énoncé capturé dans des données audio. Diverses mises en œuvre comprennent une partie de premier passage du modèle de RAP utilisée pour générer une ou plusieurs reconnaissances de candidat de diffusion en continu d'un énoncé capturé dans des données audio. Par exemple, la partie de premier passage peut comprendre un décodeur de transformateur de réseau neuronal récurrent (T-RNR). Diverses mises en œuvre comprennent une partie de second passage du modèle de RAP utilisée pour réviser la ou les reconnaissances de candidat de diffusion en continu de l'énoncé et générer une représentation textuelle de l'énoncé. Par exemple, la partie de second passage peut comprendre un décodeur d'écoute, de participation et d'épellation (EPE). Diverses mises en œuvre comprennent un codeur partagé entre le décodeur de T-RNR et le décodeur d'EPE.
Bibliography:	Application Number: WO2020US35912