셀프 지도 스피치 사전 트레이닝에서 텍스트 삽입하기

방법(500)은 비음성 텍스트 발화(320) 및 전사되지 않은 비합성 스피치 발화(306)를 포함하는 트레이닝 데이터를 수신하는 동작을 포함한다. 각각의 비음성 텍스트 발화는 비합성 스피치의 임의의 대응하는 음성 발화와 페어링되지 않는다. 각각의 전사되지 않은 비합성 스피치 발화는 대응하는 전사와 페어링되지 않는다. 방법은 또한 텍스트-투-스피치 모델(330)을 사용하여 수신된 트레이닝 데이터의 각각의 비음성 텍스트 발화에 대해 대응하는 합성 스피치 표현(332)을 생성하는 동작을 포함한다. 또한 방법은 오디오 인코더(210)가 공...

Full description

Saved in:
Bibliographic Details
Main Authors CHEN ZHEHUAI, RAMABHADRAN BHUVANA, ROSENBERG ANDREW M, ZHANG YU, MENGIBAR PEDRO J. MORENO
Format Patent
LanguageKorean
Published 20.02.2024
Subjects
Online AccessGet full text

Cover

Loading…
Abstract 방법(500)은 비음성 텍스트 발화(320) 및 전사되지 않은 비합성 스피치 발화(306)를 포함하는 트레이닝 데이터를 수신하는 동작을 포함한다. 각각의 비음성 텍스트 발화는 비합성 스피치의 임의의 대응하는 음성 발화와 페어링되지 않는다. 각각의 전사되지 않은 비합성 스피치 발화는 대응하는 전사와 페어링되지 않는다. 방법은 또한 텍스트-투-스피치 모델(330)을 사용하여 수신된 트레이닝 데이터의 각각의 비음성 텍스트 발화에 대해 대응하는 합성 스피치 표현(332)을 생성하는 동작을 포함한다. 또한 방법은 오디오 인코더(210)가 공유된 스피치 및 텍스트 표현을 공동으로 학습하도록 가르치기 위해 오디오 인코더를 비음성 텍스트 발화에 대해 생성된 합성 스피치 표현 및 전사되지 않은 비합성 스피치 발화에 대해 사전 트레이닝하는 동작을 포함한다 A method includes receiving training data that includes unspoken text utterances and un-transcribed non-synthetic speech utterances. Each unspoken text utterance is not paired with any corresponding spoken utterance of non-synthetic speech. Each un-transcribed non-synthetic speech utterance is not paired with a corresponding transcription. The method also includes generating a corresponding synthetic speech representation for each unspoken textual utterance of the received training data using a text-to-speech model. The method also includes pre-training an audio encoder on the synthetic speech representations generated for the unspoken textual utterances and the un-transcribed non-synthetic speech utterances to teach the audio encoder to jointly learn shared speech and text representations.
AbstractList 방법(500)은 비음성 텍스트 발화(320) 및 전사되지 않은 비합성 스피치 발화(306)를 포함하는 트레이닝 데이터를 수신하는 동작을 포함한다. 각각의 비음성 텍스트 발화는 비합성 스피치의 임의의 대응하는 음성 발화와 페어링되지 않는다. 각각의 전사되지 않은 비합성 스피치 발화는 대응하는 전사와 페어링되지 않는다. 방법은 또한 텍스트-투-스피치 모델(330)을 사용하여 수신된 트레이닝 데이터의 각각의 비음성 텍스트 발화에 대해 대응하는 합성 스피치 표현(332)을 생성하는 동작을 포함한다. 또한 방법은 오디오 인코더(210)가 공유된 스피치 및 텍스트 표현을 공동으로 학습하도록 가르치기 위해 오디오 인코더를 비음성 텍스트 발화에 대해 생성된 합성 스피치 표현 및 전사되지 않은 비합성 스피치 발화에 대해 사전 트레이닝하는 동작을 포함한다 A method includes receiving training data that includes unspoken text utterances and un-transcribed non-synthetic speech utterances. Each unspoken text utterance is not paired with any corresponding spoken utterance of non-synthetic speech. Each un-transcribed non-synthetic speech utterance is not paired with a corresponding transcription. The method also includes generating a corresponding synthetic speech representation for each unspoken textual utterance of the received training data using a text-to-speech model. The method also includes pre-training an audio encoder on the synthetic speech representations generated for the unspoken textual utterances and the un-transcribed non-synthetic speech utterances to teach the audio encoder to jointly learn shared speech and text representations.
Author ZHANG YU
MENGIBAR PEDRO J. MORENO
RAMABHADRAN BHUVANA
CHEN ZHEHUAI
ROSENBERG ANDREW M
Author_xml – fullname: CHEN ZHEHUAI
– fullname: RAMABHADRAN BHUVANA
– fullname: ROSENBERG ANDREW M
– fullname: ZHANG YU
– fullname: MENGIBAR PEDRO J. MORENO
BookMark eNrjYmDJy89L5WTweNPa8HZKi8Kb5Q2v-4FU15K3U_a82TlD4U3TmjcLWhTedu14vaDjzdwtr7vnvpk-4U3LHIW3rb0gZV07gGr2vpnX-nbqjFc7NvAwsKYl5hSn8kJpbgZlN9cQZw_d1IL8-NTigsTk1LzUknjvICMDIxMDAyMjU0sLR2PiVAEAkYJK8Q
ContentType Patent
DBID EVB
DatabaseName esp@cenet
DatabaseTitleList
Database_xml – sequence: 1
  dbid: EVB
  name: esp@cenet
  url: http://worldwide.espacenet.com/singleLineSearch?locale=en_EP
  sourceTypes: Open Access Repository
DeliveryMethod fulltext_linktorsrc
Discipline Medicine
Chemistry
Sciences
Physics
ExternalDocumentID KR20240022598A
GroupedDBID EVB
ID FETCH-epo_espacenet_KR20240022598A3
IEDL.DBID EVB
IngestDate Fri Jul 26 04:47:26 EDT 2024
IsOpenAccess true
IsPeerReviewed false
IsScholarly false
Language Korean
LinkModel DirectLink
MergedId FETCHMERGED-epo_espacenet_KR20240022598A3
Notes Application Number: KR20247001572
OpenAccessLink https://worldwide.espacenet.com/publicationDetails/biblio?FT=D&date=20240220&DB=EPODOC&CC=KR&NR=20240022598A
ParticipantIDs epo_espacenet_KR20240022598A
PublicationCentury 2000
PublicationDate 20240220
PublicationDateYYYYMMDD 2024-02-20
PublicationDate_xml – month: 02
  year: 2024
  text: 20240220
  day: 20
PublicationDecade 2020
PublicationYear 2024
RelatedCompanies GOOGLE LLC
RelatedCompanies_xml – name: GOOGLE LLC
Score 3.5001187
Snippet 방법(500)은 비음성 텍스트 발화(320) 및 전사되지 않은 비합성 스피치 발화(306)를 포함하는 트레이닝 데이터를 수신하는 동작을 포함한다. 각각의 비음성 텍스트 발화는 비합성 스피치의 임의의 대응하는 음성 발화와 페어링되지 않는다. 각각의 전사되지 않은 비합성 스피치 발화는...
SourceID epo
SourceType Open Access Repository
SubjectTerms ACOUSTICS
MUSICAL INSTRUMENTS
PHYSICS
SPEECH ANALYSIS OR SYNTHESIS
SPEECH OR AUDIO CODING OR DECODING
SPEECH OR VOICE PROCESSING
SPEECH RECOGNITION
Title 셀프 지도 스피치 사전 트레이닝에서 텍스트 삽입하기
URI https://worldwide.espacenet.com/publicationDetails/biblio?FT=D&date=20240220&DB=EPODOC&locale=&CC=KR&NR=20240022598A
hasFullText 1
inHoldings 1
isFullTextHit
isPrint
link http://utb.summon.serialssolutions.com/2.0.0/link/0/eLvHCXMwY2BQMU5KTkk2NrPUNUxLBXdQEnWTLC2SdVMtzY3SUpLSgJUiaIOzr5-ZR6iJV4RpBBNDDmwvDPic0HLw4YjAHJUMzO8l4PK6ADGI5QJeW1msn5QJFMq3dwuxdVGD9o5BUwVGBmouTrauAf4u_s5qzs623kFqfkEQOaCkqaWFIzMDK6ghDTpp3zXMCbQvpQC5UnETZGALAJqXVyLEwJSdL8zA6Qy7e02YgcMXOuUtzMAOXqOZXAwUhObDYhEGjzetDW-ntCi8Wd7wuh9IdS15O2XPm50zFN40rXmzoEXhbdeO1ws63szd8rp77pvpE960zFF429oLUta1A6hm75t5rW-nzni1Y4Mog7Kba4izhy7QcfHwsIj3DkL2ibEYA0tefl6qBIOCqWEqsGeQZGQAuj4kMQkYN0mJJpZpKYnGwPrHyNJUkkEGn0lS-KWlGbhAXPBebgMZBpaSotJUWWBtXJIkBw5EAMEmomc
link.rule.ids 230,309,786,891,25594,76903
linkProvider European Patent Office
linkToHtml http://utb.summon.serialssolutions.com/2.0.0/link/0/eLvHCXMwY2BQMU5KTkk2NrPUNUxLBXdQEnWTLC2SdVMtzY3SUpLSgJUiaIOzr5-ZR6iJV4RpBBNDDmwvDPic0HLw4YjAHJUMzO8l4PK6ADGI5QJeW1msn5QJFMq3dwuxdVGD9o5BUwVGBmouTrauAf4u_s5qzs623kFqfkEQOaCkqaWFIzMDqzmwUwjuLIU5gfalFCBXKm6CDGwBQPPySoQYmLLzhRk4nWF3rwkzcPhCp7yFGdjBazSTi4GC0HxYLMLg8aa14e2UFoU3yxte9wOpriVvp-x5s3OGwpumNW8WtCi87drxekHHm7lbXnfPfTN9wpuWOQpvW3tByrp2ANXsfTOv9e3UGa92bBBlUHZzDXH20AU6Lh4eFvHeQcg-MRZjYMnLz0uVYFAwNUwF9gySjAxA14ckJgHjJinRxDItJdEYWP8YWZpKMsjgM0kKv7Q8A6dHiK9PvI-nn7c0AxdICryv20CGgaWkqDRVFlgzlyTJgQMUAH9-pVE
openUrl ctx_ver=Z39.88-2004&ctx_enc=info%3Aofi%2Fenc%3AUTF-8&rfr_id=info%3Asid%2Fsummon.serialssolutions.com&rft_val_fmt=info%3Aofi%2Ffmt%3Akev%3Amtx%3Apatent&rft.title=%EC%85%80%ED%94%84+%EC%A7%80%EB%8F%84+%EC%8A%A4%ED%94%BC%EC%B9%98+%EC%82%AC%EC%A0%84+%ED%8A%B8%EB%A0%88%EC%9D%B4%EB%8B%9D%EC%97%90%EC%84%9C+%ED%85%8D%EC%8A%A4%ED%8A%B8+%EC%82%BD%EC%9E%85%ED%95%98%EA%B8%B0&rft.inventor=CHEN+ZHEHUAI&rft.inventor=RAMABHADRAN+BHUVANA&rft.inventor=ROSENBERG+ANDREW+M&rft.inventor=ZHANG+YU&rft.inventor=MENGIBAR+PEDRO+J.+MORENO&rft.date=2024-02-20&rft.externalDBID=A&rft.externalDocID=KR20240022598A