셀프 지도 스피치 사전 트레이닝에서 텍스트 삽입하기

방법(500)은 비음성 텍스트 발화(320) 및 전사되지 않은 비합성 스피치 발화(306)를 포함하는 트레이닝 데이터를 수신하는 동작을 포함한다. 각각의 비음성 텍스트 발화는 비합성 스피치의 임의의 대응하는 음성 발화와 페어링되지 않는다. 각각의 전사되지 않은 비합성 스피치 발화는 대응하는 전사와 페어링되지 않는다. 방법은 또한 텍스트-투-스피치 모델(330)을 사용하여 수신된 트레이닝 데이터의 각각의 비음성 텍스트 발화에 대해 대응하는 합성 스피치 표현(332)을 생성하는 동작을 포함한다. 또한 방법은 오디오 인코더(210)가 공...

Full description

Saved in:
Bibliographic Details
Main Authors CHEN ZHEHUAI, RAMABHADRAN BHUVANA, ROSENBERG ANDREW M, ZHANG YU, MENGIBAR PEDRO J. MORENO
Format Patent
LanguageKorean
Published 20.02.2024
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:방법(500)은 비음성 텍스트 발화(320) 및 전사되지 않은 비합성 스피치 발화(306)를 포함하는 트레이닝 데이터를 수신하는 동작을 포함한다. 각각의 비음성 텍스트 발화는 비합성 스피치의 임의의 대응하는 음성 발화와 페어링되지 않는다. 각각의 전사되지 않은 비합성 스피치 발화는 대응하는 전사와 페어링되지 않는다. 방법은 또한 텍스트-투-스피치 모델(330)을 사용하여 수신된 트레이닝 데이터의 각각의 비음성 텍스트 발화에 대해 대응하는 합성 스피치 표현(332)을 생성하는 동작을 포함한다. 또한 방법은 오디오 인코더(210)가 공유된 스피치 및 텍스트 표현을 공동으로 학습하도록 가르치기 위해 오디오 인코더를 비음성 텍스트 발화에 대해 생성된 합성 스피치 표현 및 전사되지 않은 비합성 스피치 발화에 대해 사전 트레이닝하는 동작을 포함한다 A method includes receiving training data that includes unspoken text utterances and un-transcribed non-synthetic speech utterances. Each unspoken text utterance is not paired with any corresponding spoken utterance of non-synthetic speech. Each un-transcribed non-synthetic speech utterance is not paired with a corresponding transcription. The method also includes generating a corresponding synthetic speech representation for each unspoken textual utterance of the received training data using a text-to-speech model. The method also includes pre-training an audio encoder on the synthetic speech representations generated for the unspoken textual utterances and the un-transcribed non-synthetic speech utterances to teach the audio encoder to jointly learn shared speech and text representations.
Bibliography:Application Number: KR20247001572