MULTI-MODAL MIXTURE OF EXPERTS NEURAL NETWORKS

Methods, systems, and apparatus, including computer programs encoded on a computer storage medium, for performing a multi-modal machine learning task using a neural network. In one aspect, a method comprises, receiving a request to perform a machine learning task on an input tuple comprising a first...

Full description

Saved in:
Bibliographic Details
Main Authors HOULSBY, Neil Matthew Tinmouth, MUSTAFA, Basil, PUIGCERVER I PEREZ, Joan, RIQUELME RUIZ, Carlos, JENATTON, Rodolphe
Format Patent
LanguageEnglish
French
Published 23.11.2023
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:Methods, systems, and apparatus, including computer programs encoded on a computer storage medium, for performing a multi-modal machine learning task using a neural network. In one aspect, a method comprises, receiving a request to perform a machine learning task on an input tuple comprising a first network input in a first modality and a second network input in a second modality; processing the first network input to generate a first embedded sequence; processing the second network input to generate a second embedded sequence; processing the first embedded sequence and the second embedded sequence using an attention neural network to generate an updated first embedded sequence and an updated second embedded sequence; and processing the updated first embedded sequence and the updated second embedded sequence to generate a final representation for the first network input and a final representation for the second network input. La présente invention concerne des procédés, des systèmes et un appareil, incluant des programmes informatiques codés sur un support de stockage informatique, pour réaliser une tâche d'apprentissage automatique multimodale à l'aide d'un réseau neuronal. Selon un aspect, un procédé comprend la réception d'une demande de réalisation d'une tâche d'apprentissage automatique sur un uplet d'entrée comprenant une première entrée de réseau selon une première modalité et une seconde entrée de réseau selon une seconde modalité; le traitement de la première entrée de réseau pour générer une première séquence intégrée; le traitement d'une seconde entrée de réseau pour générer une seconde séquence intégrée; le traitement de la première séquence intégrée et de la seconde séquence intégrée à l'aide d'un réseau neuronal d'attention pour générer une première séquence intégrée mise à jour et une seconde séquence intégrée mise à jour; et le traitement de la première séquence intégrée mise à jour et de la seconde séquence intégrée mise à jour pour générer une représentation finale pour la première entrée de réseau et une représentation finale pour la seconde entrée de réseau.
Bibliography:Application Number: WO2023US22977