INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD, COMPUTER PROGRAM, LEARNING DEVICE, REMOTE CONFERENCE SYSTEM, AND SUPPORT DEVICE

Provided is an information processing device for performing processing relating to speech conversion of speech that is not normally produced and that does not include pitch information, such as whispered speech or hoarse speech. This information processing device comprises a speech unit converting u...

Full description

Saved in:
Bibliographic Details
Main Author REKIMOTO, Junichi
Format Patent
LanguageEnglish
French
Japanese
Published 20.06.2024
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:Provided is an information processing device for performing processing relating to speech conversion of speech that is not normally produced and that does not include pitch information, such as whispered speech or hoarse speech. This information processing device comprises a speech unit converting unit for generating speech units from a speech waveform, and a unit speech converting unit for reconstructing the speech waveform from the speech units. The unit speech converting unit is trained in advance using Masked Language Model type self-supervised learning, using normal speech and whispered speech without accompanying text labels of a specific speaker, so as to generate speech units that are common to normal speech and whispered speech and that serve as latent representations in which differences between normal speech and whispered speech have been absorbed. L'invention concerne un dispositif de traitement d'informations pour effectuer un traitement relatif à la conversion de la parole de la parole qui n'est pas normalement produite et qui ne comprend pas d'informations de hauteur tonale, telles que la parole chuchotée ou la parole rauque. Ce dispositif de traitement d'informations comprend une unité de conversion d'unité de parole permettant de générer des unités de parole à partir d'une forme d'onde de parole, et une unité de conversion de parole unitaire permettant de reconstruire la forme d'onde de parole à partir des unités de parole. L'unité de conversion de parole unitaire est entraînée à l'avance à l'aide d'un apprentissage auto-supervisé du type modèle de langage masqué, en utilisant la parole normale et la parole chuchotée sans accompagnement d'étiquettes textuelles d'un locuteur spécifique, de façon à générer des unités de parole qui sont communes à la parole normale et à la parole chuchotée et qui servent de représentations latentes dans lesquelles ont été absorbées des différences entre la parole normale et la parole chuchotée. ささやき声やかすれ声などのピッチ情報を含まない通常出ない音声の音声変換に関する処理を行う情報処理装置を提供する。 情報処理装置は、音声波形から音声単位を生成する音声単位変換部と、音声単位から音声波形を再構築する単位音声変換部を具備する。前記単位音声変換部は、通常音声とささやき声の差分を吸収した潜在表現となる通常音声とささやき声とで共通の音声単位を生成するように、特定の話者のテキストラベルを付随しない通常音声とささやき声を用いて、Masked Language Model型の自己教師学習により事前学習されている。
Bibliography:Application Number: WO2023JP35172