METHOD AND TTS SYSTEM FOR DETERMINING THE UNVOICE SECTION OF THE MEL-SPECTROGRAM
화자 정보 및 텍스트를 이용하여 음성 데이터를 생성하는 방법은, 화자 정보를 수신하여 화자 정보에 기초하여 화자 임베딩 벡터를 생성하는 단계, 텍스트를 수신하여 텍스트에 기초하여 텍스트 임베딩 벡터를 생성하는 단계, 화자 임베딩 백터 및 텍스트 임베딩 벡터에 기초하여 멜-스펙트로그램을 생성하는 단계, 및 멜-스펙트로그램으로부터 음성 데이터를 생성하는 단계를 포함할 수 있다. 음성 데이터를 생성하는 단계는, 멜-스펙트로그램에서 무음(silence) 부분을 결정하고, 무음 부분을 기준으로 멜-스펙트로그램을 복수의 서브 멜-스펙트로그램으...
Saved in:
Main Authors | , , |
---|---|
Format | Patent |
Language | English Korean |
Published |
01.02.2024
|
Subjects | |
Online Access | Get full text |
Cover
Loading…
Summary: | 화자 정보 및 텍스트를 이용하여 음성 데이터를 생성하는 방법은, 화자 정보를 수신하여 화자 정보에 기초하여 화자 임베딩 벡터를 생성하는 단계, 텍스트를 수신하여 텍스트에 기초하여 텍스트 임베딩 벡터를 생성하는 단계, 화자 임베딩 백터 및 텍스트 임베딩 벡터에 기초하여 멜-스펙트로그램을 생성하는 단계, 및 멜-스펙트로그램으로부터 음성 데이터를 생성하는 단계를 포함할 수 있다. 음성 데이터를 생성하는 단계는, 멜-스펙트로그램에서 무음(silence) 부분을 결정하고, 무음 부분을 기준으로 멜-스펙트로그램을 복수의 서브 멜-스펙트로그램으로 분할하며, 복수의 서브 멜-스펙트로그램으로부터 음성 데이터를 생성하는 단계를 포함할 수 있다. |
---|---|
Bibliography: | Application Number: KR20220091778 |