METHOD AND TTS SYSTEM FOR DETERMINING THE UNVOICE SECTION OF THE MEL-SPECTROGRAM

화자 정보 및 텍스트를 이용하여 음성 데이터를 생성하는 방법은, 화자 정보를 수신하여 화자 정보에 기초하여 화자 임베딩 벡터를 생성하는 단계, 텍스트를 수신하여 텍스트에 기초하여 텍스트 임베딩 벡터를 생성하는 단계, 화자 임베딩 백터 및 텍스트 임베딩 벡터에 기초하여 멜-스펙트로그램을 생성하는 단계, 및 멜-스펙트로그램으로부터 음성 데이터를 생성하는 단계를 포함할 수 있다. 음성 데이터를 생성하는 단계는, 멜-스펙트로그램에서 무음(silence) 부분을 결정하고, 무음 부분을 기준으로 멜-스펙트로그램을 복수의 서브 멜-스펙트로그램으...

Full description

Saved in:

Bibliographic Details
Main Authors	KANG JIN BEOM, NAM YONG WOOK, JOO DONG WON
Format	Patent
Language	English Korean
Published	01.02.2024
Subjects	ACOUSTICS MUSICAL INSTRUMENTS PHYSICS SPEECH ANALYSIS OR SYNTHESIS SPEECH OR AUDIO CODING OR DECODING SPEECH OR VOICE PROCESSING SPEECH RECOGNITION
Online Access	Get full text

Cover

Loading…

More Information
Summary:	화자 정보 및 텍스트를 이용하여 음성 데이터를 생성하는 방법은, 화자 정보를 수신하여 화자 정보에 기초하여 화자 임베딩 벡터를 생성하는 단계, 텍스트를 수신하여 텍스트에 기초하여 텍스트 임베딩 벡터를 생성하는 단계, 화자 임베딩 백터 및 텍스트 임베딩 벡터에 기초하여 멜-스펙트로그램을 생성하는 단계, 및 멜-스펙트로그램으로부터 음성 데이터를 생성하는 단계를 포함할 수 있다. 음성 데이터를 생성하는 단계는, 멜-스펙트로그램에서 무음(silence) 부분을 결정하고, 무음 부분을 기준으로 멜-스펙트로그램을 복수의 서브 멜-스펙트로그램으로 분할하며, 복수의 서브 멜-스펙트로그램으로부터 음성 데이터를 생성하는 단계를 포함할 수 있다.
Bibliography:	Application Number: KR20220091778