METHOD AND TTS SYSTEM FOR CHANGING THE SPEED AND THE PITCH OF THE SPEECH

속도 및 피치가 변경된 음성을 합성하는 시스템이 제공된다. 본 발명의 시스템은, 화자의 음성 샘플을 입력으로 수신하고, 음성 샘플에 기초하여 화자의 발화 특징을 나타내는 화자 임베딩 벡터를 생성하는 화자 인코더, 텍스트 및 화자 임베딩 벡터를 입력으로 수신하고, 텍스트 및 화자 임베딩 벡터에 기초하여 텍스트에 대응되는 제 1 스펙트로그램을 생성하는 합성부, 제 1 스펙트로그램으로부터 제 1 음성 신호를 생성하는 보코더 및 제 1 음성 신호에서 제 1 홉 길이(hop length)를 기반으로 제 1 윈도우 길이(window lengt...

Full description

Saved in:
Bibliographic Details
Main Authors KANG JIN BEOM, NAM YONG WOOK, JOO DONG WON
Format Patent
LanguageEnglish
Korean
Published 03.06.2022
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:속도 및 피치가 변경된 음성을 합성하는 시스템이 제공된다. 본 발명의 시스템은, 화자의 음성 샘플을 입력으로 수신하고, 음성 샘플에 기초하여 화자의 발화 특징을 나타내는 화자 임베딩 벡터를 생성하는 화자 인코더, 텍스트 및 화자 임베딩 벡터를 입력으로 수신하고, 텍스트 및 화자 임베딩 벡터에 기초하여 텍스트에 대응되는 제 1 스펙트로그램을 생성하는 합성부, 제 1 스펙트로그램으로부터 제 1 음성 신호를 생성하는 보코더 및 제 1 음성 신호에서 제 1 홉 길이(hop length)를 기반으로 제 1 윈도우 길이(window length)를 갖는 구간들을 설정하고, 구간들에 대하여 단시간 푸리에 변환(Short-time Fourier Transform)을 수행하여 스펙트로그램을 생성하고, 제 1 음성 신호의 속도 및 피치를 변경하기 위한 배속율 및 피치 변경율을 결정하고, 스펙트로그램으로부터 제 2 홉 길이를 기반으로 제 2 윈도우 길이를 갖는 구간들의 음성 신호들을 생성하고, 구간들의 음성 신호들을 기반으로 속도 및 피치가 변경된 제 2 음성 신호를 생성하는 음성 후처리부를 포함할 수 있다.
Bibliography:Application Number: KR20220012681