CLASSICAL AND QUANTUM ALGORITHMS FOR ORTHOGONAL NEURAL NETWORKS

Orthogonal neural networks impose orthogonality on the weight matrices. They may achieve higher accuracy and avoid evanescent or explosive gradients for deep architectures. Several classical gradient descent methods have been proposed to preserve orthogonality while updating the weight matrices, but...

Full description

Saved in:
Bibliographic Details
Main Authors MATHUR, Natansh, KERENIDIS, Iordanis, LANDMAN, Jonas
Format Patent
LanguageEnglish
French
Published 01.12.2022
Online AccessGet full text

Cover

Loading…
More Information
Summary:Orthogonal neural networks impose orthogonality on the weight matrices. They may achieve higher accuracy and avoid evanescent or explosive gradients for deep architectures. Several classical gradient descent methods have been proposed to preserve orthogonality while updating the weight matrices, but these techniques suffer from long running times and provide only approximate orthogonality. In this disclosure, we introduce a new type of neural network layer. The layer allows for gradient descent with perfect orthogonality with the same asymptotic running time as a standard layer. The layer is inspired by quantum computing and can therefore be applied on a classical computing system as well as on a quantum computing system. It may be used as a building block for quantum neural networks and fast orthogonal neural networks. La divulgation concerne des réseaux neuronaux orthogonaux qui imposent une orthogonalité sur les matrices de poids. Ils peuvent atteindre une précision supérieure et éviter des gradients évanescents ou explosifs pour des architectures profondes. Plusieurs procédés classiques de descente de gradient ont été proposés pour préserver l'orthogonalité tout en mettant à jour les matrices de poids mais ces techniques subissent de longues durées d'exécution et ne fournissent qu'une orthogonalité approximative. Dans la présente divulgation, nous avons introduit un nouveau type de couche de réseau neuronal. La couche permet une descente de gradient avec une parfaite orthogonalité avec le même temps de fonctionnement asymptotique qu'une couche standard. La couche est inspirée par un calcul quantique et peut donc être appliquée sur un système informatique classique ainsi que sur un système informatique quantique. Il peut être utilisé en tant que bloc de construction pour des réseaux neuronaux quantiques et des réseaux neuronaux orthogonaux rapides.
Bibliography:Application Number: WO2022US31171