RawNet3 화자 표현을 활용한 임의의 화자 간 음성 변환을 위한 StarGAN의 확장

음성 변환(Voice Conversion)은 개인의 음성 데이터를 다른 사람의 음향적 특성(음조, 리듬, 성별 등)으로 재생성할 수 있는 기술로, 교육, 의사소통, 엔터테인먼트 등 다양한 분야에서 활용되고 있다. 본 논문은 StarGAN-VC 모델을 기반으로 한 접근 방식을 제안하여, 병렬 발화(Utterance) 없이도 현실적인 음성을 생성할 수 있다. 고정된 원본(source) 및 목표(target)화자 정보의 원핫 벡터(One-hot vector)를 이용하는 기존 StarGAN-VC 모델의 제약을 극복하기 위해, 본 논문에서는...

Full description

Saved in:

Bibliographic Details
Published in	정보처리학회 논문지 (KTSDE) Vol. 12; no. 7; pp. 303 - 314
Main Authors	박보경, Bogyung Park, 박소민, Somin Park, 홍현기, Hyunki Hong
Format	Journal Article
Language	Korean
Published	한국정보처리학회 31.07.2023
Subjects	Generalization RawNet3 Speaker Attribute StarGAN-VC Voice Conversion 음성 변환 일반화 화자 특성
Online Access	Get full text
ISSN	2287-5905

Cover

Abstract	음성 변환(Voice Conversion)은 개인의 음성 데이터를 다른 사람의 음향적 특성(음조, 리듬, 성별 등)으로 재생성할 수 있는 기술로, 교육, 의사소통, 엔터테인먼트 등 다양한 분야에서 활용되고 있다. 본 논문은 StarGAN-VC 모델을 기반으로 한 접근 방식을 제안하여, 병렬 발화(Utterance) 없이도 현실적인 음성을 생성할 수 있다. 고정된 원본(source) 및 목표(target)화자 정보의 원핫 벡터(One-hot vector)를 이용하는 기존 StarGAN-VC 모델의 제약을 극복하기 위해, 본 논문에서는 사전 훈련된 Rawnet3를 사용하여 목표화자의 특징 벡터를 추출한다. 이를 통해 음성 변환은 직접적인 화자 간 매핑 없이 잠재 공간(latent space)에서 이루어져 many-to-many를 넘어서 any-to-any 구조가 가능하다. 기존 StarGAN-VC 모델에서 사용된 손실함수 외에도, Wasserstein-1 거리를 사용하여 생성된 음성 세그먼트가 목표 음성의 음향적 특성과 일치하도록 보장했다. 또한, 안정적인 훈련을 위해 Two Time-Scale Update Rule (TTUR)을 사용한다. 본 논문에서 제시한 평가 지표들을 적용한 실험 결과에 따르면, 제한된 목소리 변환만이 가능한 기존 StarGAN-VC 기법 대비, 본 논문의 제안 방법을 통해 다양한 발화자에 대한 성능이 개선된 음성 변환을 제공할 수 있음을 정량적으로 확인하였다. Voice conversion, a technology that allows an individual’s speech data to be regenerated with the acoustic properties(tone, cadence, gender) of another, has countless applications in education, communication, and entertainment. This paper proposes an approach based on the StarGAN-VC model that generates realistic-sounding speech without requiring parallel utterances. To overcome the constraints of the existing StarGAN-VC model that utilizes one-hot vectors of original and target speaker information, this paper extracts feature vectors of target speakers using a pre-trained version of Rawnet3. This results in a latent space where voice conversion can be performed without direct speaker-to-speaker mappings, enabling an any-to-any structure. In addition to the loss terms used in the original StarGAN-VC model, Wasserstein distance is used as a loss term to ensure that generated voice segments match the acoustic properties of the target voice. Two Time-Scale Update Rule (TTUR) is also used to facilitate stable training. Experimental results show that the proposed method outperforms previous methods, including the StarGAN-VC network on which it was based.
AbstractList	Voice conversion, a technology that allows an individual's speech data to be regenerated with the acoustic properties(tone, cadence, gender) of another, has countless applications in education, communication, and entertainment. This paper proposes an approach based on the StarGAN-VC model that generates realistic-sounding speech without requiring parallel utterances. To overcome the constraints of the existing StarGAN-VC model that utilizes one-hot vectors of original and target speaker information, this paper extracts feature vectors of target speakers using a pre-trained version of Rawnet3. This results in a latent space where voice conversion can be performed without direct speaker-to-speaker mappings, enabling an any-to-any structure. In addition to the loss terms used in the original StarGAN-VC model, Wasserstein distance is used as a loss term to ensure that generated voice segments match the acoustic properties of the target voice. Two Time-Scale Update Rule (TTUR) is also used to facilitate stable training. Experimental results show that the proposed method outperforms previous methods, including the StarGAN-VC network on which it was based. 음성 변환(Voice Conversion)은 개인의 음성 데이터를 다른 사람의 음향적 특성(음조, 리듬, 성별 등)으로 재생성할 수 있는 기술로, 교육, 의사소통, 엔터테인먼트 등 다양한 분야에서 활용되고 있다. 본 논문은 StarGAN-VC 모델을 기반으로 한 접근 방식을 제안하여, 병렬 발화(Utterance) 없이도 현실적인 음성을 생성할 수 있다. 고정된 원본(source) 및 목표(target)화자 정보의 원핫 벡터(One-hot vector)를 이용하는 기존 StarGAN-VC 모델의 제약을 극복하기 위해, 본 논문에서는 사전 훈련된 Rawnet3를 사용하여 목표화자의 특징 벡터를 추출한다. 이를 통해 음성 변환은 직접적인 화자 간 매핑 없이 잠재 공간(latent space)에서 이루어져 many-to-many를 넘어서 any-to-any 구조가 가능하다. 기존 StarGAN-VC 모델에서 사용된 손실함수 외에도, Wasserstein-1 거리를 사용하여 생성된 음성 세그먼트가 목표 음성의 음향적 특성과 일치하도록 보장했다. 또한, 안정적인 훈련을 위해 Two Time-Scale Update Rule (TTUR)을 사용한다. 본 논문에서 제시한 평가 지표들을 적용한 실험 결과에 따르면, 제한된 목소리 변환만이 가능한 기존 StarGAN-VC 기법 대비, 본 논문의 제안 방법을 통해 다양한 발화자에 대한 성능이 개선된 음성 변환을 제공할 수 있음을 정량적으로 확인하였다. 음성 변환(Voice Conversion)은 개인의 음성 데이터를 다른 사람의 음향적 특성(음조, 리듬, 성별 등)으로 재생성할 수 있는 기술로, 교육, 의사소통, 엔터테인먼트 등 다양한 분야에서 활용되고 있다. 본 논문은 StarGAN-VC 모델을 기반으로 한 접근 방식을 제안하여, 병렬 발화(Utterance) 없이도 현실적인 음성을 생성할 수 있다. 고정된 원본(source) 및 목표(target)화자 정보의 원핫 벡터(One-hot vector)를 이용하는 기존 StarGAN-VC 모델의 제약을 극복하기 위해, 본 논문에서는 사전 훈련된 Rawnet3를 사용하여 목표화자의 특징 벡터를 추출한다. 이를 통해 음성 변환은 직접적인 화자 간 매핑 없이 잠재 공간(latent space)에서 이루어져 many-to-many를 넘어서 any-to-any 구조가 가능하다. 기존 StarGAN-VC 모델에서 사용된 손실함수 외에도, Wasserstein-1 거리를 사용하여 생성된 음성 세그먼트가 목표 음성의 음향적 특성과 일치하도록 보장했다. 또한, 안정적인 훈련을 위해 Two Time-Scale Update Rule (TTUR)을 사용한다. 본 논문에서 제시한 평가 지표들을 적용한 실험 결과에 따르면, 제한된 목소리 변환만이 가능한 기존 StarGAN-VC 기법 대비, 본 논문의 제안 방법을 통해 다양한 발화자에 대한 성능이 개선된 음성 변환을 제공할 수 있음을 정량적으로 확인하였다. Voice conversion, a technology that allows an individual’s speech data to be regenerated with the acoustic properties(tone, cadence, gender) of another, has countless applications in education, communication, and entertainment. This paper proposes an approach based on the StarGAN-VC model that generates realistic-sounding speech without requiring parallel utterances. To overcome the constraints of the existing StarGAN-VC model that utilizes one-hot vectors of original and target speaker information, this paper extracts feature vectors of target speakers using a pre-trained version of Rawnet3. This results in a latent space where voice conversion can be performed without direct speaker-to-speaker mappings, enabling an any-to-any structure. In addition to the loss terms used in the original StarGAN-VC model, Wasserstein distance is used as a loss term to ensure that generated voice segments match the acoustic properties of the target voice. Two Time-Scale Update Rule (TTUR) is also used to facilitate stable training. Experimental results show that the proposed method outperforms previous methods, including the StarGAN-VC network on which it was based.
Author	Somin Park Bogyung Park Hyunki Hong 홍현기 박보경 박소민
Author_xml	– sequence: 1 fullname: 박보경 – sequence: 2 fullname: Bogyung Park – sequence: 3 fullname: 박소민 – sequence: 4 fullname: Somin Park – sequence: 5 fullname: 홍현기 – sequence: 6 fullname: Hyunki Hong
BookMark	eNo90MtKw0AUBuBZVLDWPoGbbFwGJnPmkixD0XopLWj3YSZNILRGSQLizkWWLhQspJJm58Kd4lvp5B2cUhUOHPj5-OGcPdRJr9Oog7qEuMJmHma7qJ_nicIMQAjKoIvkhbwdRwVY7epZN49W-1S3VanXpQlq_fLWLmtLNyaozPyhr_fS0usHXX5Y35_37araeF2XG3xZyGzoj7d6qZvXfbQTy0Ue9X93D02Pj6aDE3s0GZ4O_JE9Z5jbbhQDdwhhFJw45tTFMFNKSSpCFxiW1GFUMReHAjseJlxGTCljiAeKha6AHjrc1s6TvEiCdJYvgjP_fEIwAeJw08HM1dy4g3-XBzdZciWzu4BiMP_h8AMZ5W50
ContentType	Journal Article
DBID	HZB Q5X JDI
DEWEY	004
DatabaseName	KISS(한국학술정보) Korean Studies Information Service System (KISS) B-Type KoreaScience
DatabaseTitleList
DeliveryMethod	fulltext_linktorsrc
Discipline	Computer Science
DocumentTitleAlternate	RawNet3 화자 표현을 활용한 임의의 화자 간 음성 변환을 위한 StarGAN의 확장
EndPage	314
ExternalDocumentID	JAKO202321635055336 4035906
GroupedDBID	ALMA_UNASSIGNED_HOLDINGS HZB Q5X .UV JDI
ID	FETCH-LOGICAL-k506-8ef361225431ff64803dbbba47c8350a4154b580c7019026ae5bb03d293b5c873
ISSN	2287-5905
IngestDate	Fri Dec 22 11:59:14 EST 2023 Sat Feb 15 02:11:20 EST 2025
IsOpenAccess	true
IsPeerReviewed	false
IsScholarly	false
Issue	7
Language	Korean
LinkModel	OpenURL
MergedId	FETCHMERGED-LOGICAL-k506-8ef361225431ff64803dbbba47c8350a4154b580c7019026ae5bb03d293b5c873
Notes	Korea Information Processing Society KISTI1.1003/JNL.JAKO202321635055336
OpenAccessLink	http://click.ndsl.kr/servlet/LinkingDetailView?cn=JAKO202321635055336&dbt=JAKO&org_code=O481&site_code=SS1481&service_code=01
PageCount	12
ParticipantIDs	kisti_ndsl_JAKO202321635055336 kiss_primary_4035906
PublicationCentury	2000
PublicationDate	20230731
PublicationDateYYYYMMDD	2023-07-31
PublicationDate_xml	– month: 07 year: 2023 text: 20230731 day: 31
PublicationDecade	2020
PublicationTitle	정보처리학회 논문지 (KTSDE)
PublicationTitleAlternate	정보처리학회 논문지 (KTSDE)
PublicationYear	2023
Publisher	한국정보처리학회
Publisher_xml	– name: 한국정보처리학회
SSID	ssib053377453 ssib013223549 ssib044742768 ssib058467650 ssib014210003 ssib012446219
Score	1.8407265
Snippet	음성 변환(Voice Conversion)은 개인의 음성 데이터를 다른 사람의 음향적 특성(음조, 리듬, 성별 등)으로 재생성할 수 있는 기술로, 교육, 의사소통, 엔터테인먼트 등 다양한 분야에서 활용되고 있다. 본 논문은 StarGAN-VC 모델을 기반으로 한 접근 방식을 제안하여,... Voice conversion, a technology that allows an individual's speech data to be regenerated with the acoustic properties(tone, cadence, gender) of another, has...
SourceID	kisti kiss
SourceType	Open Access Repository Publisher
StartPage	303
SubjectTerms	Generalization RawNet3 Speaker Attribute StarGAN-VC Voice Conversion 음성 변환 일반화 화자 특성
Title	RawNet3 화자 표현을 활용한 임의의 화자 간 음성 변환을 위한 StarGAN의 확장
URI	https://kiss.kstudy.com/ExternalLink/Ar?key=4035906 http://click.ndsl.kr/servlet/LinkingDetailView?cn=JAKO202321635055336&dbt=JAKO&org_code=O481&site_code=SS1481&service_code=01
Volume	12
hasFullText	1
inHoldings	1
isFullTextHit
isPrint
link	http://utb.summon.serialssolutions.com/2.0.0/link/0/eLvHCXMwnV3Nb9MwFI-2nbgg0ECMjykHfKqCUsd2nKOTZkybKBMUabcqThM0DVq0dUJwQBx65AASkzrU9caBG4j_CtL_gWfnE-gBJkWR9fK-4hfbv-c4jmHcjdI0iVwWWSlrQ4ISJ9zihBCLYR57NKXUHehVvl22_YTs7NP9ldW9xqqlk7G8F79e-l3JRaIKNIir-kr2PyJbKQUClCG-cIYIw_mfYvwoetlNxk4LhR3kecgjKAyQFyLPzklt5AW6wBHPr3WgULEHmiSQ8DSFAqVVaKjYQbQsLDcjkG_nSnP1WimI-20g-ch31FqKQpA3fQiUA8pOaRpw79F90f3bHi3sCdqE0ooobH1Vm_G1Wz7WZnwkGBJBqTy_QQHeaac4RX6gmUBAOyVccFOh7d3e407YmB7Ryv-wIpQVv1oq7Y-evoIus7XX-OypIQY3yXS1gLkt5Nez0qPnB8NaqJh5wU45pVu0lap-tF2KROdiN173-BjSV4t6Nv1teMKNZug2xhrHdupBvFpaSdSejGoP-lWnrfr9B2_Csn9VUI7hevs-NRHhNN7ytglWb3uq_poQl-BGOgqZASQLNbzT2JXpnyBXngOygcTnGFI9lf8cNLBa74pxuUiyTJG3mKvGyuFo3YiK1mIuzj5m8_fm4sNsMZ1k5xMgzLJPXxanMzObA2EKR8n04-vEzM7fZZNv5s_vbxdnU8WfzSaKuXhec-7TbP75mtHbCnvBtlX8YMQ6pDazeJI6APD1dhBpygi3nYGUMiJuDHmJHQG2JZJyO1a_LLAxixIqJfAAQpY05q5z3VgbjobJDcOMohiGa-ni1JOEDniEU5vLhA3iFCA6TzeMdVUt_Rf5FjL9Ikobxqaupv5wcPysvyN2H6rnDEOOBIkJVDe7uVzulnGpfiBvG2vjo5PkDoDjsdzUEf8FYnaQNQ
linkProvider	ISSN International Centre
openUrl	ctx_ver=Z39.88-2004&ctx_enc=info%3Aofi%2Fenc%3AUTF-8&rfr_id=info%3Asid%2Fsummon.serialssolutions.com&rft_val_fmt=info%3Aofi%2Ffmt%3Akev%3Amtx%3Ajournal&rft.genre=article&rft.atitle=RawNet3+%ED%99%94%EC%9E%90+%ED%91%9C%ED%98%84%EC%9D%84+%ED%99%9C%EC%9A%A9%ED%95%9C+%EC%9E%84%EC%9D%98%EC%9D%98+%ED%99%94%EC%9E%90+%EA%B0%84+%EC%9D%8C%EC%84%B1+%EB%B3%80%ED%99%98%EC%9D%84+%EC%9C%84%ED%95%9C+StarGAN%EC%9D%98+%ED%99%95%EC%9E%A5&rft.jtitle=%EC%A0%95%EB%B3%B4%EC%B2%98%EB%A6%AC%ED%95%99%ED%9A%8C+%EB%85%BC%EB%AC%B8%EC%A7%80+%28KTSDE%29&rft.au=%EB%B0%95%EB%B3%B4%EA%B2%BD&rft.au=Bogyung+Park&rft.au=%EB%B0%95%EC%86%8C%EB%AF%BC&rft.au=Somin+Park&rft.date=2023-07-31&rft.pub=%ED%95%9C%EA%B5%AD%EC%A0%95%EB%B3%B4%EC%B2%98%EB%A6%AC%ED%95%99%ED%9A%8C&rft.issn=2287-5905&rft.volume=12&rft.issue=7&rft.spage=303&rft.externalDocID=4035906
thumbnail_l	http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/lc.gif&issn=2287-5905&client=summon
thumbnail_m	http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/mc.gif&issn=2287-5905&client=summon
thumbnail_s	http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/sc.gif&issn=2287-5905&client=summon