CONTEXTUAL BIASING FOR SPEECH RECOGNITION

음성 인식을 바이어싱하는 방법(500)은 발언(104)를 인코딩하는 오디오 데이터(108)를 수신하는 단계 및 발언의 컨텍스트(202)에 대응하는 하나 이상의 바이어싱 구문(116) 세트를 획득하는 단계를 포함한다. 하나 이상의 바이어스 구문 세트의 각 바이어스 구문은 하나 이상의 단어를 포함한다. 방법은 또한 음성 인식 모델(300)을 사용하여, 음성 인식 모델의 출력을 생성하기 위해 오디오 데이터로부터 도출된 음향 특징(109) 및 하나 이상의 바이어싱 구문 세트로부터 도출된 음소 및 자소 데이터(118, 120)를 처리하는 단...

Full description

Saved in:
Bibliographic Details
Main Authors PRABHAVALKAR ROHIT PRAKASH, PUNDAK GOLAN, SAINATH TARA N, BRUGUIER ANTOINE JEAN
Format Patent
LanguageEnglish
Korean
Published 03.05.2022
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:음성 인식을 바이어싱하는 방법(500)은 발언(104)를 인코딩하는 오디오 데이터(108)를 수신하는 단계 및 발언의 컨텍스트(202)에 대응하는 하나 이상의 바이어싱 구문(116) 세트를 획득하는 단계를 포함한다. 하나 이상의 바이어스 구문 세트의 각 바이어스 구문은 하나 이상의 단어를 포함한다. 방법은 또한 음성 인식 모델(300)을 사용하여, 음성 인식 모델의 출력을 생성하기 위해 오디오 데이터로부터 도출된 음향 특징(109) 및 하나 이상의 바이어싱 구문 세트로부터 도출된 음소 및 자소 데이터(118, 120)를 처리하는 단계를 포함한다. 방법은 또한 음성 인식 모델의 출력에 기초하여 발언에 대한 전사를 결정하는 단계(146)를 포함한다. A method of biasing speech recognition includes receiving audio data encoding an utterance and obtaining a set of one or more biasing phrases corresponding to a context of the utterance. Each biasing phrase in the set of one or more biasing phrases includes one or more words. The method also includes processing, using a speech recognition model, acoustic features derived from the audio data and grapheme and phoneme data derived from the set of one or more biasing phrases to generate an output of the speech recognition model. The method also includes determining a transcription for the utterance based on the output of the speech recognition model.
Bibliography:Application Number: KR20227013080