REDUCTION SERVER FOR FAST DISTRIBUTED TRAINING

A data processing system, that includes: one or more host processing devices, the one or more host processing devices may be configured to support instantiation of a plurality of virtual machines such that a first set of virtual machines run one or more worker processes, each worker process operatin...

Full description

Saved in:
Bibliographic Details
Main Authors LAN, Chang, RADPOUR, Soroush
Format Patent
LanguageEnglish
French
Published 28.04.2022
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:A data processing system, that includes: one or more host processing devices, the one or more host processing devices may be configured to support instantiation of a plurality of virtual machines such that a first set of virtual machines run one or more worker processes, each worker process operating on a respective data set to produce a respective gradient. The host processing devices may be configured to support instantiation of a second set of virtual machines running one or more reducer processes that operate on each respective gradient produced by each worker process to produce an aggregated gradient. The one or more reducer processes may cause the aggregated gradient to be broadcasted to each worker process. Système de traitement de données, qui comprend : un ou plusieurs dispositifs de traitement hôtes, le ou les dispositifs de traitement hôtes pouvant être configurés pour prendre en charge une instanciation d'une pluralité de machines virtuelles de sorte qu'un premier ensemble de machines virtuelles exécute un ou plusieurs processus travailleurs, chaque processus travailleur fonctionnant sur un ensemble de données respectif pour produire un gradient respectif. Les dispositifs de traitement hôtes peuvent être configurés pour prendre en charge une instanciation d'un second ensemble de machines virtuelles exécutant un ou plusieurs processus réducteurs qui fonctionnent sur chaque gradient respectif produit par chaque processus travailleur pour produire un gradient agrégé. Le ou les processus réducteurs peuvent amener le gradient agrégé à être diffusé à chaque processus travailleur.
Bibliography:Application Number: WO2021US54973