METHOD AND TTS SYSTEM FOR DETERMINING THE UNVOICE SECTION OF THE MEL-SPECTROGRAM

화자 정보 및 텍스트를 이용하여 음성 데이터를 생성하는 방법은, 화자 정보를 수신하여 화자 정보에 기초하여 화자 임베딩 벡터를 생성하는 단계, 텍스트를 수신하여 텍스트에 기초하여 텍스트 임베딩 벡터를 생성하는 단계, 화자 임베딩 백터 및 텍스트 임베딩 벡터에 기초하여 멜-스펙트로그램을 생성하는 단계, 및 멜-스펙트로그램으로부터 음성 데이터를 생성하는 단계를 포함할 수 있다. 음성 데이터를 생성하는 단계는, 멜-스펙트로그램에서 무음(silence) 부분을 결정하고, 무음 부분을 기준으로 멜-스펙트로그램을 복수의 서브 멜-스펙트로그램으...

Full description

Saved in:
Bibliographic Details
Main Authors KANG JIN BEOM, NAM YONG WOOK, JOO DONG WON
Format Patent
LanguageEnglish
Korean
Published 01.02.2024
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:화자 정보 및 텍스트를 이용하여 음성 데이터를 생성하는 방법은, 화자 정보를 수신하여 화자 정보에 기초하여 화자 임베딩 벡터를 생성하는 단계, 텍스트를 수신하여 텍스트에 기초하여 텍스트 임베딩 벡터를 생성하는 단계, 화자 임베딩 백터 및 텍스트 임베딩 벡터에 기초하여 멜-스펙트로그램을 생성하는 단계, 및 멜-스펙트로그램으로부터 음성 데이터를 생성하는 단계를 포함할 수 있다. 음성 데이터를 생성하는 단계는, 멜-스펙트로그램에서 무음(silence) 부분을 결정하고, 무음 부분을 기준으로 멜-스펙트로그램을 복수의 서브 멜-스펙트로그램으로 분할하며, 복수의 서브 멜-스펙트로그램으로부터 음성 데이터를 생성하는 단계를 포함할 수 있다.
Bibliography:Application Number: KR20220091778