DISTRIBUTED TRAINING METHOD AND SYSTEM DEVICE AND STORAGE MEDIUM

Disclosed in the present application is a method, a system, a device, a storage medium and a program for distributed training, and the present invention relates to the field of artificial intelligence technology, and specifically, relates to the field of deep learning and cloud computing technology....

Full description

Saved in:
Bibliographic Details
Main Authors DAXIANG DONG, WEIBAO GONG, YANJUN MA, YI LIU, DIANHAI YU, HAIFENG WANG
Format Patent
LanguageEnglish
Korean
Published 04.01.2022
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:Disclosed in the present application is a method, a system, a device, a storage medium and a program for distributed training, and the present invention relates to the field of artificial intelligence technology, and specifically, relates to the field of deep learning and cloud computing technology. The method including: sending, by a job information server, a first training request and available first computing server information to at least a first data server among a plurality of data servers; sending, by the first data server, first training data to the first computing server based on the first training request; and performing, by the first computing server, model training based on the first training data, and sending and storing model parameters after the completion of training to the first data server, and sending and recording identification information of the first training data to the job information server, wherein each computing server does not store the model parameters. When the embodiment of the present application is used, a high-efficiency training process in which computing resources change with elasticity is realized. 본 출원은 분산 훈련 방법, 시스템, 기기, 저장 매체 및 프로그램을 개시하였으며, 인공지능 기술분야에 관한것이며, 구체적으로 딥러닝 및 클라우드 컴퓨팅 기술 분야에 관한 것이다. 상기 방법은, 작업 정보 서버가 복수의 데이터 서버중의 적어도 제1데이터 서버에 제1훈련 청구 및 사용가능한 제1컴퓨팅 서버 정보를 송신하는것; 제1데이터 서버가 상기 제1훈련 청구에 기반하여 상기 제1컴퓨팅 서버에 첫번째 훈련 데이터를 송신하는것; 제1컴퓨팅 서버가 상기 첫번째 훈련 데이터에 기반하여 모델 훈련을 진행하고, 훈련 완료후 모델 파라미터를 상기 제1데이터 서버에 송신하여 보존하고, 및 상기 첫번째 훈련 데이터의 식별 정보를 상기 작업 정보 서버에 송신하여 기록하는것, 을 포함하며; 여기서, 각 컴퓨팅 서버에는 모델 파라미터를 저장하지 않는다. 본 출원의 실시예를 이용하면, 컴퓨팅 리소스가 탄성으로 변화하는 고효율적인 훈련 과정을 실현할수 있다.
Bibliography:Application Number: KR20200164799