TWO-PASS END TO END SPEECH RECOGNITION
Two-pass automatic speech recognition (ASR) models can be used to perform streaming on- device ASR to generate a text representation of an utterance captured in audio data. Various implementations include a first-pass portion of the ASR model used to generate streaming candidate recognition(s) of an...
Saved in:
Main Authors | , , , , , , , , , , , |
---|---|
Format | Patent |
Language | English French |
Published |
10.12.2020
|
Subjects | |
Online Access | Get full text |
Cover
Loading…
Summary: | Two-pass automatic speech recognition (ASR) models can be used to perform streaming on- device ASR to generate a text representation of an utterance captured in audio data. Various implementations include a first-pass portion of the ASR model used to generate streaming candidate recognition(s) of an utterance captured in audio data. For example, the first-pass portion can include a recurrent neural network transformer (RNN-T) decoder. Various implementations include a second-pass portion of the ASR model used to revise the streaming candidate recognition(s) of the utterance and generate a text representation of the utterance. For example, the second-pass portion can include a listen attend spell (LAS) decoder. Various implementations include a shared encoder shared between the RNN-T decoder and the LAS decoder.
Selon l'invention, des modèles de reconnaissance automatique de la parole (RAP) à deux passages peuvent être utilisés pour effectuer une RAP sur dispositif de diffusion en continu pour générer une représentation textuelle d'un énoncé capturé dans des données audio. Diverses mises en œuvre comprennent une partie de premier passage du modèle de RAP utilisée pour générer une ou plusieurs reconnaissances de candidat de diffusion en continu d'un énoncé capturé dans des données audio. Par exemple, la partie de premier passage peut comprendre un décodeur de transformateur de réseau neuronal récurrent (T-RNR). Diverses mises en œuvre comprennent une partie de second passage du modèle de RAP utilisée pour réviser la ou les reconnaissances de candidat de diffusion en continu de l'énoncé et générer une représentation textuelle de l'énoncé. Par exemple, la partie de second passage peut comprendre un décodeur d'écoute, de participation et d'épellation (EPE). Diverses mises en œuvre comprennent un codeur partagé entre le décodeur de T-RNR et le décodeur d'EPE. |
---|---|
Bibliography: | Application Number: WO2020US35912 |