EMOTION-BASED TEXT TO SPEECH

Systems and methods are provided for providing emotion-based text to speech. The systems and methods perform operations comprising accessing a text string; storing a plurality of embeddings associated with a plurality of speakers, a first embedding for a first speaker being associated with a first e...

Full description

Saved in:
Bibliographic Details
Main Authors HARAZI, Liron, BEKKER, Alan, ASSA, Jackie
Format Patent
LanguageEnglish
French
Published 17.08.2023
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:Systems and methods are provided for providing emotion-based text to speech. The systems and methods perform operations comprising accessing a text string; storing a plurality of embeddings associated with a plurality of speakers, a first embedding for a first speaker being associated with a first emotion and a second embedding for a second speaker of the plurality of speakers being associated with a second emotion; selecting the first speaker to speak one or more words of the text string; determining that the one or more words are associated with the second emotion; generating, based on the first embedding and the second embedding, a third embedding for the first speaker associated with the second emotion; and applying the third embedding and the text string to a vocoder to generate an audio stream comprising the one or more words being spoken by the first speaker with the second emotion. L'invention concerne des systèmes et des procédés pour fournir une conversion de texte en parole basée sur une émotion. Les systèmes et les procédés réalisent des opérations consistant à avoir accès à une chaîne de texte ; à stocker une pluralité d'intégrations associées à une pluralité de locuteurs, une première incorporation pour un premier locuteur étant associée à une première émotion et une deuxième incorporation pour un second locuteur de la pluralité de locuteurs étant associée à une seconde émotion ; à sélectionner le premier locuteur pour prononcer un ou plusieurs mots de la chaîne de texte ; à déterminer que le ou les mots sont associés à la seconde émotion ; à générer, sur la base de la première incorporation et de la deuxième incorporation, une troisième incorporation pour le premier locuteur associé à la seconde émotion ; et à appliquer la troisième incorporation et la chaîne de texte à un vocodeur pour générer un flux audio comprenant le ou les mots prononcés par le premier locuteur avec la seconde émotion.
Bibliography:Application Number: WO2023US12594