METHOD AND TTS SYSTEM FOR CHANGING THE SPEED AND THE PITCH OF THE SPEECH

속도 및 피치가 변경된 음성을 합성하는 시스템이 제공된다. 본 발명의 시스템은, 화자의 음성 샘플을 입력으로 수신하고, 음성 샘플에 기초하여 화자의 발화 특징을 나타내는 화자 임베딩 벡터를 생성하는 화자 인코더, 텍스트 및 화자 임베딩 벡터를 입력으로 수신하고, 텍스트 및 화자 임베딩 벡터에 기초하여 텍스트에 대응되는 제 1 스펙트로그램을 생성하는 합성부, 제 1 스펙트로그램으로부터 제 1 음성 신호를 생성하는 보코더 및 제 1 음성 신호에서 제 1 홉 길이(hop length)를 기반으로 제 1 윈도우 길이(window lengt...

Full description

Saved in:

Bibliographic Details
Main Authors	KANG JIN BEOM, NAM YONG WOOK, JOO DONG WON
Format	Patent
Language	English Korean
Published	03.06.2022
Subjects	ACOUSTICS MUSICAL INSTRUMENTS PHYSICS SPEECH ANALYSIS OR SYNTHESIS SPEECH OR AUDIO CODING OR DECODING SPEECH OR VOICE PROCESSING SPEECH RECOGNITION
Online Access	Get full text

Cover

Loading…

More Information
Summary:	속도 및 피치가 변경된 음성을 합성하는 시스템이 제공된다. 본 발명의 시스템은, 화자의 음성 샘플을 입력으로 수신하고, 음성 샘플에 기초하여 화자의 발화 특징을 나타내는 화자 임베딩 벡터를 생성하는 화자 인코더, 텍스트 및 화자 임베딩 벡터를 입력으로 수신하고, 텍스트 및 화자 임베딩 벡터에 기초하여 텍스트에 대응되는 제 1 스펙트로그램을 생성하는 합성부, 제 1 스펙트로그램으로부터 제 1 음성 신호를 생성하는 보코더 및 제 1 음성 신호에서 제 1 홉 길이(hop length)를 기반으로 제 1 윈도우 길이(window length)를 갖는 구간들을 설정하고, 구간들에 대하여 단시간 푸리에 변환(Short-time Fourier Transform)을 수행하여 스펙트로그램을 생성하고, 제 1 음성 신호의 속도 및 피치를 변경하기 위한 배속율 및 피치 변경율을 결정하고, 스펙트로그램으로부터 제 2 홉 길이를 기반으로 제 2 윈도우 길이를 갖는 구간들의 음성 신호들을 생성하고, 구간들의 음성 신호들을 기반으로 속도 및 피치가 변경된 제 2 음성 신호를 생성하는 음성 후처리부를 포함할 수 있다.
Bibliography:	Application Number: KR20220012681