FLICKERING REDUCTION WITH PARTIAL HYPOTHESIS RE-RANKING FOR STREAMING ASR

A method (400) includes processing, using a speech recognizer (200), a first portion of audio data (110) to generate a first lattice (210), and generating a first partial transcription (120) for an utterance (106) based on the first lattice. The method includes processing, using the recognizer, a se...

Full description

Saved in:

Bibliographic Details
Main Authors	QIU, David, BRUGUIER, Antoine Jean, STROHMAN, Trevor, HE, Yangzhang
Format	Patent
Language	English French
Published	25.01.2024
Subjects	ACOUSTICS MUSICAL INSTRUMENTS PHYSICS SPEECH ANALYSIS OR SYNTHESIS SPEECH OR AUDIO CODING OR DECODING SPEECH OR VOICE PROCESSING SPEECH RECOGNITION
Online Access	Get full text

Cover

Loading…

More Information
Summary:	A method (400) includes processing, using a speech recognizer (200), a first portion of audio data (110) to generate a first lattice (210), and generating a first partial transcription (120) for an utterance (106) based on the first lattice. The method includes processing, using the recognizer, a second portion of the data to generate, based on the first lattice, a second lattice representing a plurality of partial speech recognition hypotheses (140) for the utterance and a plurality of corresponding speech recognition scores (150A). For each particular partial speech recognition hypothesis, the method includes generating a corresponding re-ranked score (150B) based on the corresponding speech recognition score and whether the particular partial speech recognition hypothesis shares a prefix with the first partial transcription. The method includes generating a second partial transcription for the utterance by selecting the partial speech recognition hypothesis of the second plurality of partial speech recognition hypotheses having the highest corresponding re-ranked score. Un procédé (400) consiste à traiter, à l'aide d'un dispositif de reconnaissance de la parole (200), une première partie de données audio (110) pour générer un premier réseau (210), et à générer une première transcription partielle (120) pour un énoncé (106) sur la base du premier réseau. Le procédé consiste à traiter, à l'aide du dispositif de reconnaissance, une seconde partie des données pour générer, sur la base du premier réseau, un second réseau représentant une pluralité d'hypothèses de reconnaissance de la parole partielles (140) pour l'énoncé et une pluralité de scores de reconnaissance de la parole (150A) correspondants. Pour chaque hypothèse de reconnaissance de la parole partielle particulière, le procédé consiste à générer un score reclassé (150B) correspondant sur la base du score de reconnaissance de la parole correspondant et selon si l'hypothèse de reconnaissance de la parole partielle particulière partage un préfixe avec la première transcription partielle. Le procédé consiste à générer une seconde transcription partielle pour l'énoncé par sélection de l'hypothèse de reconnaissance de la parole partielle de la seconde pluralité d'hypothèses de reconnaissance de la parole partielles présentant le score reclassé correspondant le plus élevé.
Bibliography:	Application Number: WO2023US27691