GENERATING AUDIO FILES FROM TEXT INPUT

Methods, systems, and storage media for generating audio data includes receiving a text input. The method also includes receiving a plurality of representative audio sources and encoding the plurality of representative audio sources into a plurality of audio tokens. The method includes encoding the...

Full description

Saved in:
Bibliographic Details
Main Authors COPET, Jade, KRUX, Felix, ADI, Yossef Mordechay, PARIKH, Devi Niru, SINGER, Uriel, DÉFOSSEZ, Alexandre, SYNNAEVE, Gabriel, TAIGMAN, Yaniv Nechemia, POLYAK, Adam
Format Patent
LanguageEnglish
French
Published 04.04.2024
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:Methods, systems, and storage media for generating audio data includes receiving a text input. The method also includes receiving a plurality of representative audio sources and encoding the plurality of representative audio sources into a plurality of audio tokens. The method includes encoding the text input into a plurality of text representations. The method comprises mapping each audio tokens of the plurality of audio tokens to a text representation of the plurality of text representations. The method also comprises determining a relationship score based on mapping each audio tokens to the text representation, wherein the relationship score identifies a distribution of audio tokens from the plurality of audio tokens. The method and systems can also comprise decoding the subgroup of audio tokens to yield a reconstmcted audio source. L'invention concerne des procédés, des systèmes et des supports de stockage pour générer des données audio, qui consistent à : recevoir une entrée de texte; recevoir une pluralité de sources audio représentatives et coder la pluralité des sources audio représentatives dans une pluralité de jetons audio; coder l'entrée de texte dans une pluralité de représentations de texte; mettre en correspondance chacun de la pluralité des jetons audio avec une représentation de texte de la pluralité des représentations de texte; déterminer un score de relation sur la base de la mise en correspondance de chaque jeton audio avec la représentation de texte, le score de relation identifiant une distribution de jetons audio à partir de la pluralité des jetons audio. Le procédé et les systèmes peuvent également comprendre le décodage du sous-groupe de jetons audio afin d'obtenir une source audio reconstruite.
Bibliography:Application Number: WO2023US34214