RawNet3 화자 표현을 활용한 임의의 화자 간 음성 변환을 위한 StarGAN의 확장

음성 변환(Voice Conversion)은 개인의 음성 데이터를 다른 사람의 음향적 특성(음조, 리듬, 성별 등)으로 재생성할 수 있는 기술로, 교육, 의사소통, 엔터테인먼트 등 다양한 분야에서 활용되고 있다. 본 논문은 StarGAN-VC 모델을 기반으로 한 접근 방식을 제안하여, 병렬 발화(Utterance) 없이도 현실적인 음성을 생성할 수 있다. 고정된 원본(source) 및 목표(target)화자 정보의 원핫 벡터(One-hot vector)를 이용하는 기존 StarGAN-VC 모델의 제약을 극복하기 위해, 본 논문에서는...

Full description

Saved in:
Bibliographic Details
Published in정보처리학회 논문지 (KTSDE) Vol. 12; no. 7; pp. 303 - 314
Main Authors 박보경, Bogyung Park, 박소민, Somin Park, 홍현기, Hyunki Hong
Format Journal Article
LanguageKorean
Published 한국정보처리학회 31.07.2023
Subjects
Online AccessGet full text
ISSN2287-5905

Cover

Abstract 음성 변환(Voice Conversion)은 개인의 음성 데이터를 다른 사람의 음향적 특성(음조, 리듬, 성별 등)으로 재생성할 수 있는 기술로, 교육, 의사소통, 엔터테인먼트 등 다양한 분야에서 활용되고 있다. 본 논문은 StarGAN-VC 모델을 기반으로 한 접근 방식을 제안하여, 병렬 발화(Utterance) 없이도 현실적인 음성을 생성할 수 있다. 고정된 원본(source) 및 목표(target)화자 정보의 원핫 벡터(One-hot vector)를 이용하는 기존 StarGAN-VC 모델의 제약을 극복하기 위해, 본 논문에서는 사전 훈련된 Rawnet3를 사용하여 목표화자의 특징 벡터를 추출한다. 이를 통해 음성 변환은 직접적인 화자 간 매핑 없이 잠재 공간(latent space)에서 이루어져 many-to-many를 넘어서 any-to-any 구조가 가능하다. 기존 StarGAN-VC 모델에서 사용된 손실함수 외에도, Wasserstein-1 거리를 사용하여 생성된 음성 세그먼트가 목표 음성의 음향적 특성과 일치하도록 보장했다. 또한, 안정적인 훈련을 위해 Two Time-Scale Update Rule (TTUR)을 사용한다. 본 논문에서 제시한 평가 지표들을 적용한 실험 결과에 따르면, 제한된 목소리 변환만이 가능한 기존 StarGAN-VC 기법 대비, 본 논문의 제안 방법을 통해 다양한 발화자에 대한 성능이 개선된 음성 변환을 제공할 수 있음을 정량적으로 확인하였다. Voice conversion, a technology that allows an individual’s speech data to be regenerated with the acoustic properties(tone, cadence, gender) of another, has countless applications in education, communication, and entertainment. This paper proposes an approach based on the StarGAN-VC model that generates realistic-sounding speech without requiring parallel utterances. To overcome the constraints of the existing StarGAN-VC model that utilizes one-hot vectors of original and target speaker information, this paper extracts feature vectors of target speakers using a pre-trained version of Rawnet3. This results in a latent space where voice conversion can be performed without direct speaker-to-speaker mappings, enabling an any-to-any structure. In addition to the loss terms used in the original StarGAN-VC model, Wasserstein distance is used as a loss term to ensure that generated voice segments match the acoustic properties of the target voice. Two Time-Scale Update Rule (TTUR) is also used to facilitate stable training. Experimental results show that the proposed method outperforms previous methods, including the StarGAN-VC network on which it was based.
AbstractList Voice conversion, a technology that allows an individual's speech data to be regenerated with the acoustic properties(tone, cadence, gender) of another, has countless applications in education, communication, and entertainment. This paper proposes an approach based on the StarGAN-VC model that generates realistic-sounding speech without requiring parallel utterances. To overcome the constraints of the existing StarGAN-VC model that utilizes one-hot vectors of original and target speaker information, this paper extracts feature vectors of target speakers using a pre-trained version of Rawnet3. This results in a latent space where voice conversion can be performed without direct speaker-to-speaker mappings, enabling an any-to-any structure. In addition to the loss terms used in the original StarGAN-VC model, Wasserstein distance is used as a loss term to ensure that generated voice segments match the acoustic properties of the target voice. Two Time-Scale Update Rule (TTUR) is also used to facilitate stable training. Experimental results show that the proposed method outperforms previous methods, including the StarGAN-VC network on which it was based. 음성 변환(Voice Conversion)은 개인의 음성 데이터를 다른 사람의 음향적 특성(음조, 리듬, 성별 등)으로 재생성할 수 있는 기술로, 교육, 의사소통, 엔터테인먼트 등 다양한 분야에서 활용되고 있다. 본 논문은 StarGAN-VC 모델을 기반으로 한 접근 방식을 제안하여, 병렬 발화(Utterance) 없이도 현실적인 음성을 생성할 수 있다. 고정된 원본(source) 및 목표(target)화자 정보의 원핫 벡터(One-hot vector)를 이용하는 기존 StarGAN-VC 모델의 제약을 극복하기 위해, 본 논문에서는 사전 훈련된 Rawnet3를 사용하여 목표화자의 특징 벡터를 추출한다. 이를 통해 음성 변환은 직접적인 화자 간 매핑 없이 잠재 공간(latent space)에서 이루어져 many-to-many를 넘어서 any-to-any 구조가 가능하다. 기존 StarGAN-VC 모델에서 사용된 손실함수 외에도, Wasserstein-1 거리를 사용하여 생성된 음성 세그먼트가 목표 음성의 음향적 특성과 일치하도록 보장했다. 또한, 안정적인 훈련을 위해 Two Time-Scale Update Rule (TTUR)을 사용한다. 본 논문에서 제시한 평가 지표들을 적용한 실험 결과에 따르면, 제한된 목소리 변환만이 가능한 기존 StarGAN-VC 기법 대비, 본 논문의 제안 방법을 통해 다양한 발화자에 대한 성능이 개선된 음성 변환을 제공할 수 있음을 정량적으로 확인하였다.
음성 변환(Voice Conversion)은 개인의 음성 데이터를 다른 사람의 음향적 특성(음조, 리듬, 성별 등)으로 재생성할 수 있는 기술로, 교육, 의사소통, 엔터테인먼트 등 다양한 분야에서 활용되고 있다. 본 논문은 StarGAN-VC 모델을 기반으로 한 접근 방식을 제안하여, 병렬 발화(Utterance) 없이도 현실적인 음성을 생성할 수 있다. 고정된 원본(source) 및 목표(target)화자 정보의 원핫 벡터(One-hot vector)를 이용하는 기존 StarGAN-VC 모델의 제약을 극복하기 위해, 본 논문에서는 사전 훈련된 Rawnet3를 사용하여 목표화자의 특징 벡터를 추출한다. 이를 통해 음성 변환은 직접적인 화자 간 매핑 없이 잠재 공간(latent space)에서 이루어져 many-to-many를 넘어서 any-to-any 구조가 가능하다. 기존 StarGAN-VC 모델에서 사용된 손실함수 외에도, Wasserstein-1 거리를 사용하여 생성된 음성 세그먼트가 목표 음성의 음향적 특성과 일치하도록 보장했다. 또한, 안정적인 훈련을 위해 Two Time-Scale Update Rule (TTUR)을 사용한다. 본 논문에서 제시한 평가 지표들을 적용한 실험 결과에 따르면, 제한된 목소리 변환만이 가능한 기존 StarGAN-VC 기법 대비, 본 논문의 제안 방법을 통해 다양한 발화자에 대한 성능이 개선된 음성 변환을 제공할 수 있음을 정량적으로 확인하였다. Voice conversion, a technology that allows an individual’s speech data to be regenerated with the acoustic properties(tone, cadence, gender) of another, has countless applications in education, communication, and entertainment. This paper proposes an approach based on the StarGAN-VC model that generates realistic-sounding speech without requiring parallel utterances. To overcome the constraints of the existing StarGAN-VC model that utilizes one-hot vectors of original and target speaker information, this paper extracts feature vectors of target speakers using a pre-trained version of Rawnet3. This results in a latent space where voice conversion can be performed without direct speaker-to-speaker mappings, enabling an any-to-any structure. In addition to the loss terms used in the original StarGAN-VC model, Wasserstein distance is used as a loss term to ensure that generated voice segments match the acoustic properties of the target voice. Two Time-Scale Update Rule (TTUR) is also used to facilitate stable training. Experimental results show that the proposed method outperforms previous methods, including the StarGAN-VC network on which it was based.
Author Somin Park
Bogyung Park
Hyunki Hong
홍현기
박보경
박소민
Author_xml – sequence: 1
  fullname: 박보경
– sequence: 2
  fullname: Bogyung Park
– sequence: 3
  fullname: 박소민
– sequence: 4
  fullname: Somin Park
– sequence: 5
  fullname: 홍현기
– sequence: 6
  fullname: Hyunki Hong
BookMark eNo90MtKw0AUBuBZVLDWPoGbbFwGJnPmkixD0XopLWj3YSZNILRGSQLizkWWLhQspJJm58Kd4lvp5B2cUhUOHPj5-OGcPdRJr9Oog7qEuMJmHma7qJ_nicIMQAjKoIvkhbwdRwVY7epZN49W-1S3VanXpQlq_fLWLmtLNyaozPyhr_fS0usHXX5Y35_37araeF2XG3xZyGzoj7d6qZvXfbQTy0Ue9X93D02Pj6aDE3s0GZ4O_JE9Z5jbbhQDdwhhFJw45tTFMFNKSSpCFxiW1GFUMReHAjseJlxGTCljiAeKha6AHjrc1s6TvEiCdJYvgjP_fEIwAeJw08HM1dy4g3-XBzdZciWzu4BiMP_h8AMZ5W50
ContentType Journal Article
DBID HZB
Q5X
JDI
DEWEY 004
DatabaseName KISS(한국학술정보)
Korean Studies Information Service System (KISS) B-Type
KoreaScience
DatabaseTitleList

DeliveryMethod fulltext_linktorsrc
Discipline Computer Science
DocumentTitleAlternate RawNet3 화자 표현을 활용한 임의의 화자 간 음성 변환을 위한 StarGAN의 확장
EndPage 314
ExternalDocumentID JAKO202321635055336
4035906
GroupedDBID ALMA_UNASSIGNED_HOLDINGS
HZB
Q5X
.UV
JDI
ID FETCH-LOGICAL-k506-8ef361225431ff64803dbbba47c8350a4154b580c7019026ae5bb03d293b5c873
ISSN 2287-5905
IngestDate Fri Dec 22 11:59:14 EST 2023
Sat Feb 15 02:11:20 EST 2025
IsOpenAccess true
IsPeerReviewed false
IsScholarly false
Issue 7
Language Korean
LinkModel OpenURL
MergedId FETCHMERGED-LOGICAL-k506-8ef361225431ff64803dbbba47c8350a4154b580c7019026ae5bb03d293b5c873
Notes Korea Information Processing Society
KISTI1.1003/JNL.JAKO202321635055336
OpenAccessLink http://click.ndsl.kr/servlet/LinkingDetailView?cn=JAKO202321635055336&dbt=JAKO&org_code=O481&site_code=SS1481&service_code=01
PageCount 12
ParticipantIDs kisti_ndsl_JAKO202321635055336
kiss_primary_4035906
PublicationCentury 2000
PublicationDate 20230731
PublicationDateYYYYMMDD 2023-07-31
PublicationDate_xml – month: 07
  year: 2023
  text: 20230731
  day: 31
PublicationDecade 2020
PublicationTitle 정보처리학회 논문지 (KTSDE)
PublicationTitleAlternate 정보처리학회 논문지 (KTSDE)
PublicationYear 2023
Publisher 한국정보처리학회
Publisher_xml – name: 한국정보처리학회
SSID ssib053377453
ssib013223549
ssib044742768
ssib058467650
ssib014210003
ssib012446219
Score 1.8407265
Snippet 음성 변환(Voice Conversion)은 개인의 음성 데이터를 다른 사람의 음향적 특성(음조, 리듬, 성별 등)으로 재생성할 수 있는 기술로, 교육, 의사소통, 엔터테인먼트 등 다양한 분야에서 활용되고 있다. 본 논문은 StarGAN-VC 모델을 기반으로 한 접근 방식을 제안하여,...
Voice conversion, a technology that allows an individual's speech data to be regenerated with the acoustic properties(tone, cadence, gender) of another, has...
SourceID kisti
kiss
SourceType Open Access Repository
Publisher
StartPage 303
SubjectTerms Generalization
RawNet3
Speaker Attribute
StarGAN-VC
Voice Conversion
음성 변환
일반화
화자 특성
Title RawNet3 화자 표현을 활용한 임의의 화자 간 음성 변환을 위한 StarGAN의 확장
URI https://kiss.kstudy.com/ExternalLink/Ar?key=4035906
http://click.ndsl.kr/servlet/LinkingDetailView?cn=JAKO202321635055336&dbt=JAKO&org_code=O481&site_code=SS1481&service_code=01
Volume 12
hasFullText 1
inHoldings 1
isFullTextHit
isPrint
link http://utb.summon.serialssolutions.com/2.0.0/link/0/eLvHCXMwnV3Nb9MwFI-2nbgg0ECMjykHfKqCUsd2nKOTZkybKBMUabcqThM0DVq0dUJwQBx65AASkzrU9caBG4j_CtL_gWfnE-gBJkWR9fK-4hfbv-c4jmHcjdI0iVwWWSlrQ4ISJ9zihBCLYR57NKXUHehVvl22_YTs7NP9ldW9xqqlk7G8F79e-l3JRaIKNIir-kr2PyJbKQUClCG-cIYIw_mfYvwoetlNxk4LhR3kecgjKAyQFyLPzklt5AW6wBHPr3WgULEHmiSQ8DSFAqVVaKjYQbQsLDcjkG_nSnP1WimI-20g-ch31FqKQpA3fQiUA8pOaRpw79F90f3bHi3sCdqE0ooobH1Vm_G1Wz7WZnwkGBJBqTy_QQHeaac4RX6gmUBAOyVccFOh7d3e407YmB7Ryv-wIpQVv1oq7Y-evoIus7XX-OypIQY3yXS1gLkt5Nez0qPnB8NaqJh5wU45pVu0lap-tF2KROdiN173-BjSV4t6Nv1teMKNZug2xhrHdupBvFpaSdSejGoP-lWnrfr9B2_Csn9VUI7hevs-NRHhNN7ytglWb3uq_poQl-BGOgqZASQLNbzT2JXpnyBXngOygcTnGFI9lf8cNLBa74pxuUiyTJG3mKvGyuFo3YiK1mIuzj5m8_fm4sNsMZ1k5xMgzLJPXxanMzObA2EKR8n04-vEzM7fZZNv5s_vbxdnU8WfzSaKuXhec-7TbP75mtHbCnvBtlX8YMQ6pDazeJI6APD1dhBpygi3nYGUMiJuDHmJHQG2JZJyO1a_LLAxixIqJfAAQpY05q5z3VgbjobJDcOMohiGa-ni1JOEDniEU5vLhA3iFCA6TzeMdVUt_Rf5FjL9Ikobxqaupv5wcPysvyN2H6rnDEOOBIkJVDe7uVzulnGpfiBvG2vjo5PkDoDjsdzUEf8FYnaQNQ
linkProvider ISSN International Centre
openUrl ctx_ver=Z39.88-2004&ctx_enc=info%3Aofi%2Fenc%3AUTF-8&rfr_id=info%3Asid%2Fsummon.serialssolutions.com&rft_val_fmt=info%3Aofi%2Ffmt%3Akev%3Amtx%3Ajournal&rft.genre=article&rft.atitle=RawNet3+%ED%99%94%EC%9E%90+%ED%91%9C%ED%98%84%EC%9D%84+%ED%99%9C%EC%9A%A9%ED%95%9C+%EC%9E%84%EC%9D%98%EC%9D%98+%ED%99%94%EC%9E%90+%EA%B0%84+%EC%9D%8C%EC%84%B1+%EB%B3%80%ED%99%98%EC%9D%84+%EC%9C%84%ED%95%9C+StarGAN%EC%9D%98+%ED%99%95%EC%9E%A5&rft.jtitle=%EC%A0%95%EB%B3%B4%EC%B2%98%EB%A6%AC%ED%95%99%ED%9A%8C+%EB%85%BC%EB%AC%B8%EC%A7%80+%28KTSDE%29&rft.au=%EB%B0%95%EB%B3%B4%EA%B2%BD&rft.au=Bogyung+Park&rft.au=%EB%B0%95%EC%86%8C%EB%AF%BC&rft.au=Somin+Park&rft.date=2023-07-31&rft.pub=%ED%95%9C%EA%B5%AD%EC%A0%95%EB%B3%B4%EC%B2%98%EB%A6%AC%ED%95%99%ED%9A%8C&rft.issn=2287-5905&rft.volume=12&rft.issue=7&rft.spage=303&rft.externalDocID=4035906
thumbnail_l http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/lc.gif&issn=2287-5905&client=summon
thumbnail_m http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/mc.gif&issn=2287-5905&client=summon
thumbnail_s http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/sc.gif&issn=2287-5905&client=summon