METHODS AND APPARATUSES FOR SYNTHESIZING VOICE AND TRAINING THE CORRESPONDING MODEL ELECTRONIC EQUIPMENT STORAGE MEDIUM AND COMPUTER PROGRAM PRODUCT

The present invention relates to the artificial intelligence technology field including smart voice and deep learning. Disclosed are a method of synthesizing voice, and a method, apparatus, device, and medium for training a corresponding model. More specifically, the method of synthesizing voice com...

Full description

Saved in:
Bibliographic Details
Main Authors JIA LEI, ZHANG JUNTENG, SUN TAO, WANG WENFU, GAO ZHENGKUN, WANG XILEI
Format Patent
LanguageEnglish
Korean
Published 14.10.2021
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:The present invention relates to the artificial intelligence technology field including smart voice and deep learning. Disclosed are a method of synthesizing voice, and a method, apparatus, device, and medium for training a corresponding model. More specifically, the method of synthesizing voice comprises: a step of acquiring style information and voice tone information of the voice to be synthesized and content information of a text to be processed; a step of using a pre-trained voice synthesis model, and generating acoustic feature information of the text to be processed based on the style information, the voice tone information, and the content information of the text to be processed; and a step of synthesizing the voice of the text to be processed based on the acoustic feature information of the text to be processed. In accordance with the present invention, the method is capable of realizing the voice synthesis in a cross-language, cross-style, and cross-voice tone manner, maximizing the diversity of voice synthesis, and enhancing the user experience level of a user. 본 발명은 스마트 음성 및 딥 러닝 등 인공 지능 기술 분야에 관한 것으로, 음성 합성 방법 및 대응하는 모델의 훈련 방법, 장치, 기기 및 매체를 개시한다. 구체적인 구현 방안은, 합성될 음성의 스타일 정보, 음색 정보 및 처리될 텍스트의 콘텐츠 정보를 획득하는 것, 사전 훈련된 음성 합성 모델을 사용하여, 상기 스타일 정보, 상기 음색 정보 및 상기 처리될 텍스트의 콘텐츠 정보에 기반하여, 상기 처리될 텍스트의 음향학 특징 정보를 생성하는 것, 상기 처리될 텍스트의 음향학 특징 정보에 기반하여, 상기 처리될 텍스트의 음성을 합성하는 것을 포함한다. 본 발명에 따르면 크로스-언어, 크로스-스타일, 크로스-음색의 음성 합성을 구현할 수 있어, 음성 합성의 다양성을 최대적으로 풍부화시킬 수 있고, 사용자의 사용 체험도를 향상할 수 있다.
Bibliography:Application Number: KR20210117980