DEEP LEARNING BASED VOICE EXTRACTION AND PRIMARY-AMBIENCE DECOMPOSITION FOR STEREO TO SURROUND UPMIXING WITH DIALOG-ENHANCED CENTER CHANNEL

An embodiment provides a computer-implemented method that includes determining directional sounds from a content mix using a machine learning unmixing model. The directional sounds are panned in an upmixed signal. Signal-dependent upmixing gains for specific frequency bins are computed on a frame-ba...

Full description

Saved in:
Bibliographic Details
Main Authors BHARITKAR, Sunil, PÁEZ AMARO, Ricardo Thaddeus, MADRID HERRERA, Luis, TEJEDA OCAMPO, Carlos
Format Patent
LanguageEnglish
French
Published 15.08.2024
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:An embodiment provides a computer-implemented method that includes determining directional sounds from a content mix using a machine learning unmixing model. The directional sounds are panned in an upmixed signal. Signal-dependent upmixing gains for specific frequency bins are computed on a frame-basis using a machine learning model for the upmixed signal. Dedicated voice clarity gains are computed using a hearing impairment model for multiple hearing-impaired profiles for achieving dialog enhancement. The signal dependent upmixing gains and voice clarity gains are transmitted as metadata with a downmixed signal representing the content mix. Un mode de réalisation de l'invention concerne un procédé mis en œuvre par ordinateur qui consiste à déterminer des sons directionnels à partir d'un mixage de contenu en utilisant un modèle de démixage à apprentissage automatique. Les sons directionnels sont rendus panoramiques dans un signal ayant été soumis à un mixage élévateur. Des gains de mixage élévateur dépendant du signal pour des cellules de fréquence spécifiques sont calculés en fonction de la trame en utilisant un modèle d'apprentissage automatique pour le signal ayant été soumis à un mixage élévateur. Des gains de clarté vocale dédiés sont calculés en utilisant un modèle de déficience auditive pour de multiples profils malentendants afin d'obtenir une amélioration de dialogue. Les gains de mixage élévateur dépendant du signal et les gains de clarté vocale sont transmis sous forme de métadonnées avec un signal ayant été soumis à un mixage abaissant représentant le mixage du contenu.
Bibliography:Application Number: WO2024KR01539