RawNet3 화자 표현을 활용한 임의의 화자 간 음성 변환을 위한 StarGAN의 확장
음성 변환(Voice Conversion)은 개인의 음성 데이터를 다른 사람의 음향적 특성(음조, 리듬, 성별 등)으로 재생성할 수 있는 기술로, 교육, 의사소통, 엔터테인먼트 등 다양한 분야에서 활용되고 있다. 본 논문은 StarGAN-VC 모델을 기반으로 한 접근 방식을 제안하여, 병렬 발화(Utterance) 없이도 현실적인 음성을 생성할 수 있다. 고정된 원본(source) 및 목표(target)화자 정보의 원핫 벡터(One-hot vector)를 이용하는 기존 StarGAN-VC 모델의 제약을 극복하기 위해, 본 논문에서는...
Saved in:
Published in | 정보처리학회 논문지 (KTSDE) Vol. 12; no. 7; pp. 303 - 314 |
---|---|
Main Authors | , , , , , |
Format | Journal Article |
Language | Korean |
Published |
한국정보처리학회
31.07.2023
|
Subjects | |
Online Access | Get full text |
ISSN | 2287-5905 |
Cover
Abstract | 음성 변환(Voice Conversion)은 개인의 음성 데이터를 다른 사람의 음향적 특성(음조, 리듬, 성별 등)으로 재생성할 수 있는 기술로, 교육, 의사소통, 엔터테인먼트 등 다양한 분야에서 활용되고 있다. 본 논문은 StarGAN-VC 모델을 기반으로 한 접근 방식을 제안하여, 병렬 발화(Utterance) 없이도 현실적인 음성을 생성할 수 있다. 고정된 원본(source) 및 목표(target)화자 정보의 원핫 벡터(One-hot vector)를 이용하는 기존 StarGAN-VC 모델의 제약을 극복하기 위해, 본 논문에서는 사전 훈련된 Rawnet3를 사용하여 목표화자의 특징 벡터를 추출한다. 이를 통해 음성 변환은 직접적인 화자 간 매핑 없이 잠재 공간(latent space)에서 이루어져 many-to-many를 넘어서 any-to-any 구조가 가능하다. 기존 StarGAN-VC 모델에서 사용된 손실함수 외에도, Wasserstein-1 거리를 사용하여 생성된 음성 세그먼트가 목표 음성의 음향적 특성과 일치하도록 보장했다. 또한, 안정적인 훈련을 위해 Two Time-Scale Update Rule (TTUR)을 사용한다. 본 논문에서 제시한 평가 지표들을 적용한 실험 결과에 따르면, 제한된 목소리 변환만이 가능한 기존 StarGAN-VC 기법 대비, 본 논문의 제안 방법을 통해 다양한 발화자에 대한 성능이 개선된 음성 변환을 제공할 수 있음을 정량적으로 확인하였다.
Voice conversion, a technology that allows an individual’s speech data to be regenerated with the acoustic properties(tone, cadence, gender) of another, has countless applications in education, communication, and entertainment. This paper proposes an approach based on the StarGAN-VC model that generates realistic-sounding speech without requiring parallel utterances. To overcome the constraints of the existing StarGAN-VC model that utilizes one-hot vectors of original and target speaker information, this paper extracts feature vectors of target speakers using a pre-trained version of Rawnet3. This results in a latent space where voice conversion can be performed without direct speaker-to-speaker mappings, enabling an any-to-any structure. In addition to the loss terms used in the original StarGAN-VC model, Wasserstein distance is used as a loss term to ensure that generated voice segments match the acoustic properties of the target voice. Two Time-Scale Update Rule (TTUR) is also used to facilitate stable training. Experimental results show that the proposed method outperforms previous methods, including the StarGAN-VC network on which it was based. |
---|---|
AbstractList | Voice conversion, a technology that allows an individual's speech data to be regenerated with the acoustic properties(tone, cadence, gender) of another, has countless applications in education, communication, and entertainment. This paper proposes an approach based on the StarGAN-VC model that generates realistic-sounding speech without requiring parallel utterances. To overcome the constraints of the existing StarGAN-VC model that utilizes one-hot vectors of original and target speaker information, this paper extracts feature vectors of target speakers using a pre-trained version of Rawnet3. This results in a latent space where voice conversion can be performed without direct speaker-to-speaker mappings, enabling an any-to-any structure. In addition to the loss terms used in the original StarGAN-VC model, Wasserstein distance is used as a loss term to ensure that generated voice segments match the acoustic properties of the target voice. Two Time-Scale Update Rule (TTUR) is also used to facilitate stable training. Experimental results show that the proposed method outperforms previous methods, including the StarGAN-VC network on which it was based. 음성 변환(Voice Conversion)은 개인의 음성 데이터를 다른 사람의 음향적 특성(음조, 리듬, 성별 등)으로 재생성할 수 있는 기술로, 교육, 의사소통, 엔터테인먼트 등 다양한 분야에서 활용되고 있다. 본 논문은 StarGAN-VC 모델을 기반으로 한 접근 방식을 제안하여, 병렬 발화(Utterance) 없이도 현실적인 음성을 생성할 수 있다. 고정된 원본(source) 및 목표(target)화자 정보의 원핫 벡터(One-hot vector)를 이용하는 기존 StarGAN-VC 모델의 제약을 극복하기 위해, 본 논문에서는 사전 훈련된 Rawnet3를 사용하여 목표화자의 특징 벡터를 추출한다. 이를 통해 음성 변환은 직접적인 화자 간 매핑 없이 잠재 공간(latent space)에서 이루어져 many-to-many를 넘어서 any-to-any 구조가 가능하다. 기존 StarGAN-VC 모델에서 사용된 손실함수 외에도, Wasserstein-1 거리를 사용하여 생성된 음성 세그먼트가 목표 음성의 음향적 특성과 일치하도록 보장했다. 또한, 안정적인 훈련을 위해 Two Time-Scale Update Rule (TTUR)을 사용한다. 본 논문에서 제시한 평가 지표들을 적용한 실험 결과에 따르면, 제한된 목소리 변환만이 가능한 기존 StarGAN-VC 기법 대비, 본 논문의 제안 방법을 통해 다양한 발화자에 대한 성능이 개선된 음성 변환을 제공할 수 있음을 정량적으로 확인하였다. 음성 변환(Voice Conversion)은 개인의 음성 데이터를 다른 사람의 음향적 특성(음조, 리듬, 성별 등)으로 재생성할 수 있는 기술로, 교육, 의사소통, 엔터테인먼트 등 다양한 분야에서 활용되고 있다. 본 논문은 StarGAN-VC 모델을 기반으로 한 접근 방식을 제안하여, 병렬 발화(Utterance) 없이도 현실적인 음성을 생성할 수 있다. 고정된 원본(source) 및 목표(target)화자 정보의 원핫 벡터(One-hot vector)를 이용하는 기존 StarGAN-VC 모델의 제약을 극복하기 위해, 본 논문에서는 사전 훈련된 Rawnet3를 사용하여 목표화자의 특징 벡터를 추출한다. 이를 통해 음성 변환은 직접적인 화자 간 매핑 없이 잠재 공간(latent space)에서 이루어져 many-to-many를 넘어서 any-to-any 구조가 가능하다. 기존 StarGAN-VC 모델에서 사용된 손실함수 외에도, Wasserstein-1 거리를 사용하여 생성된 음성 세그먼트가 목표 음성의 음향적 특성과 일치하도록 보장했다. 또한, 안정적인 훈련을 위해 Two Time-Scale Update Rule (TTUR)을 사용한다. 본 논문에서 제시한 평가 지표들을 적용한 실험 결과에 따르면, 제한된 목소리 변환만이 가능한 기존 StarGAN-VC 기법 대비, 본 논문의 제안 방법을 통해 다양한 발화자에 대한 성능이 개선된 음성 변환을 제공할 수 있음을 정량적으로 확인하였다. Voice conversion, a technology that allows an individual’s speech data to be regenerated with the acoustic properties(tone, cadence, gender) of another, has countless applications in education, communication, and entertainment. This paper proposes an approach based on the StarGAN-VC model that generates realistic-sounding speech without requiring parallel utterances. To overcome the constraints of the existing StarGAN-VC model that utilizes one-hot vectors of original and target speaker information, this paper extracts feature vectors of target speakers using a pre-trained version of Rawnet3. This results in a latent space where voice conversion can be performed without direct speaker-to-speaker mappings, enabling an any-to-any structure. In addition to the loss terms used in the original StarGAN-VC model, Wasserstein distance is used as a loss term to ensure that generated voice segments match the acoustic properties of the target voice. Two Time-Scale Update Rule (TTUR) is also used to facilitate stable training. Experimental results show that the proposed method outperforms previous methods, including the StarGAN-VC network on which it was based. |
Author | Somin Park Bogyung Park Hyunki Hong 홍현기 박보경 박소민 |
Author_xml | – sequence: 1 fullname: 박보경 – sequence: 2 fullname: Bogyung Park – sequence: 3 fullname: 박소민 – sequence: 4 fullname: Somin Park – sequence: 5 fullname: 홍현기 – sequence: 6 fullname: Hyunki Hong |
BookMark | eNo90MtKw0AUBuBZVLDWPoGbbFwGJnPmkixD0XopLWj3YSZNILRGSQLizkWWLhQspJJm58Kd4lvp5B2cUhUOHPj5-OGcPdRJr9Oog7qEuMJmHma7qJ_nicIMQAjKoIvkhbwdRwVY7epZN49W-1S3VanXpQlq_fLWLmtLNyaozPyhr_fS0usHXX5Y35_37araeF2XG3xZyGzoj7d6qZvXfbQTy0Ue9X93D02Pj6aDE3s0GZ4O_JE9Z5jbbhQDdwhhFJw45tTFMFNKSSpCFxiW1GFUMReHAjseJlxGTCljiAeKha6AHjrc1s6TvEiCdJYvgjP_fEIwAeJw08HM1dy4g3-XBzdZciWzu4BiMP_h8AMZ5W50 |
ContentType | Journal Article |
DBID | HZB Q5X JDI |
DEWEY | 004 |
DatabaseName | KISS(한국학술정보) Korean Studies Information Service System (KISS) B-Type KoreaScience |
DatabaseTitleList | |
DeliveryMethod | fulltext_linktorsrc |
Discipline | Computer Science |
DocumentTitleAlternate | RawNet3 화자 표현을 활용한 임의의 화자 간 음성 변환을 위한 StarGAN의 확장 |
EndPage | 314 |
ExternalDocumentID | JAKO202321635055336 4035906 |
GroupedDBID | ALMA_UNASSIGNED_HOLDINGS HZB Q5X .UV JDI |
ID | FETCH-LOGICAL-k506-8ef361225431ff64803dbbba47c8350a4154b580c7019026ae5bb03d293b5c873 |
ISSN | 2287-5905 |
IngestDate | Fri Dec 22 11:59:14 EST 2023 Sat Feb 15 02:11:20 EST 2025 |
IsOpenAccess | true |
IsPeerReviewed | false |
IsScholarly | false |
Issue | 7 |
Language | Korean |
LinkModel | OpenURL |
MergedId | FETCHMERGED-LOGICAL-k506-8ef361225431ff64803dbbba47c8350a4154b580c7019026ae5bb03d293b5c873 |
Notes | Korea Information Processing Society KISTI1.1003/JNL.JAKO202321635055336 |
OpenAccessLink | http://click.ndsl.kr/servlet/LinkingDetailView?cn=JAKO202321635055336&dbt=JAKO&org_code=O481&site_code=SS1481&service_code=01 |
PageCount | 12 |
ParticipantIDs | kisti_ndsl_JAKO202321635055336 kiss_primary_4035906 |
PublicationCentury | 2000 |
PublicationDate | 20230731 |
PublicationDateYYYYMMDD | 2023-07-31 |
PublicationDate_xml | – month: 07 year: 2023 text: 20230731 day: 31 |
PublicationDecade | 2020 |
PublicationTitle | 정보처리학회 논문지 (KTSDE) |
PublicationTitleAlternate | 정보처리학회 논문지 (KTSDE) |
PublicationYear | 2023 |
Publisher | 한국정보처리학회 |
Publisher_xml | – name: 한국정보처리학회 |
SSID | ssib053377453 ssib013223549 ssib044742768 ssib058467650 ssib014210003 ssib012446219 |
Score | 1.8407265 |
Snippet | 음성 변환(Voice Conversion)은 개인의 음성 데이터를 다른 사람의 음향적 특성(음조, 리듬, 성별 등)으로 재생성할 수 있는 기술로, 교육, 의사소통, 엔터테인먼트 등 다양한 분야에서 활용되고 있다. 본 논문은 StarGAN-VC 모델을 기반으로 한 접근 방식을 제안하여,... Voice conversion, a technology that allows an individual's speech data to be regenerated with the acoustic properties(tone, cadence, gender) of another, has... |
SourceID | kisti kiss |
SourceType | Open Access Repository Publisher |
StartPage | 303 |
SubjectTerms | Generalization RawNet3 Speaker Attribute StarGAN-VC Voice Conversion 음성 변환 일반화 화자 특성 |
Title | RawNet3 화자 표현을 활용한 임의의 화자 간 음성 변환을 위한 StarGAN의 확장 |
URI | https://kiss.kstudy.com/ExternalLink/Ar?key=4035906 http://click.ndsl.kr/servlet/LinkingDetailView?cn=JAKO202321635055336&dbt=JAKO&org_code=O481&site_code=SS1481&service_code=01 |
Volume | 12 |
hasFullText | 1 |
inHoldings | 1 |
isFullTextHit | |
isPrint | |
link | http://utb.summon.serialssolutions.com/2.0.0/link/0/eLvHCXMwnV3Nb9MwFI-2nbgg0ECMjykHfKqCUsd2nKOTZkybKBMUabcqThM0DVq0dUJwQBx65AASkzrU9caBG4j_CtL_gWfnE-gBJkWR9fK-4hfbv-c4jmHcjdI0iVwWWSlrQ4ISJ9zihBCLYR57NKXUHehVvl22_YTs7NP9ldW9xqqlk7G8F79e-l3JRaIKNIir-kr2PyJbKQUClCG-cIYIw_mfYvwoetlNxk4LhR3kecgjKAyQFyLPzklt5AW6wBHPr3WgULEHmiSQ8DSFAqVVaKjYQbQsLDcjkG_nSnP1WimI-20g-ch31FqKQpA3fQiUA8pOaRpw79F90f3bHi3sCdqE0ooobH1Vm_G1Wz7WZnwkGBJBqTy_QQHeaac4RX6gmUBAOyVccFOh7d3e407YmB7Ryv-wIpQVv1oq7Y-evoIus7XX-OypIQY3yXS1gLkt5Nez0qPnB8NaqJh5wU45pVu0lap-tF2KROdiN173-BjSV4t6Nv1teMKNZug2xhrHdupBvFpaSdSejGoP-lWnrfr9B2_Csn9VUI7hevs-NRHhNN7ytglWb3uq_poQl-BGOgqZASQLNbzT2JXpnyBXngOygcTnGFI9lf8cNLBa74pxuUiyTJG3mKvGyuFo3YiK1mIuzj5m8_fm4sNsMZ1k5xMgzLJPXxanMzObA2EKR8n04-vEzM7fZZNv5s_vbxdnU8WfzSaKuXhec-7TbP75mtHbCnvBtlX8YMQ6pDazeJI6APD1dhBpygi3nYGUMiJuDHmJHQG2JZJyO1a_LLAxixIqJfAAQpY05q5z3VgbjobJDcOMohiGa-ni1JOEDniEU5vLhA3iFCA6TzeMdVUt_Rf5FjL9Ikobxqaupv5wcPysvyN2H6rnDEOOBIkJVDe7uVzulnGpfiBvG2vjo5PkDoDjsdzUEf8FYnaQNQ |
linkProvider | ISSN International Centre |
openUrl | ctx_ver=Z39.88-2004&ctx_enc=info%3Aofi%2Fenc%3AUTF-8&rfr_id=info%3Asid%2Fsummon.serialssolutions.com&rft_val_fmt=info%3Aofi%2Ffmt%3Akev%3Amtx%3Ajournal&rft.genre=article&rft.atitle=RawNet3+%ED%99%94%EC%9E%90+%ED%91%9C%ED%98%84%EC%9D%84+%ED%99%9C%EC%9A%A9%ED%95%9C+%EC%9E%84%EC%9D%98%EC%9D%98+%ED%99%94%EC%9E%90+%EA%B0%84+%EC%9D%8C%EC%84%B1+%EB%B3%80%ED%99%98%EC%9D%84+%EC%9C%84%ED%95%9C+StarGAN%EC%9D%98+%ED%99%95%EC%9E%A5&rft.jtitle=%EC%A0%95%EB%B3%B4%EC%B2%98%EB%A6%AC%ED%95%99%ED%9A%8C+%EB%85%BC%EB%AC%B8%EC%A7%80+%28KTSDE%29&rft.au=%EB%B0%95%EB%B3%B4%EA%B2%BD&rft.au=Bogyung+Park&rft.au=%EB%B0%95%EC%86%8C%EB%AF%BC&rft.au=Somin+Park&rft.date=2023-07-31&rft.pub=%ED%95%9C%EA%B5%AD%EC%A0%95%EB%B3%B4%EC%B2%98%EB%A6%AC%ED%95%99%ED%9A%8C&rft.issn=2287-5905&rft.volume=12&rft.issue=7&rft.spage=303&rft.externalDocID=4035906 |
thumbnail_l | http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/lc.gif&issn=2287-5905&client=summon |
thumbnail_m | http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/mc.gif&issn=2287-5905&client=summon |
thumbnail_s | http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/sc.gif&issn=2287-5905&client=summon |