SELECTIVE BATCHING FOR INFERENCE SYSTEM FOR TRANSFORMER-BASED GENERATION TASKS

The present invention relates to machine learning transformer neural network models, and more specifically, to selective batching for transformer models. An inference system selectively batches a subset of operations in a transformer model but processes requests within the batch separately for the s...

Full description

Saved in:
Bibliographic Details
Main Authors KIM GEON WOO, CHUN BYUNG GON, YU GYEONGIN, KIM SOOJEONG, JEONG JOO SEONG
Format Patent
LanguageEnglish
Korean
Published 14.02.2023
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:The present invention relates to machine learning transformer neural network models, and more specifically, to selective batching for transformer models. An inference system selectively batches a subset of operations in a transformer model but processes requests within the batch separately for the subset of operations in the transformer model to apply a machine learning transformer model to batches of requests with variable input length, variable target length, or variable internal state length. In one embodiment, the operations to be processed separately are the attentional operations of an encoder or decoder of the transformer model. By selective batching, the inference system prevents unnecessary computations that occur for suboptimal solutions that limit the data of a batch of requests to the same length while performing batching operations on batches of requests with variable input or target length or internal state length to take advantage of the parallel computing capabilities of hardware accelerators. 추론 시스템은, 트랜스포머 모델에서의 연산들의 서브세트를 선택적으로 배칭하지만 트랜스포머 모델에서의 연산들의 서브세트에 대해 개별적으로 배치 내의 요청들을 처리함으로써, 가변 입력 길이 또는 가변 타겟 길이 또는 가변 내부 상태 길이를 갖는 요청들의 배치에 기계 학습 트랜스포머 모델을 적용한다. 일 실시예에서, 개별적으로 처리될 연산은, 트랜스포머 모델의 인코더 또는 디코더의 주의집중 연산이다. 선택적 배칭에 의해, 추론 시스템은, 요청들의 배치의 데이터를 동일한 길이로 제한하는 차선책들에 대해 발생하는 불필요한 계산들을 방지하면서, 하드웨어 가속기들의 병렬 계산 능력들을 활용하도록, 가변 입력 또는 타겟 길이 또는 내부 상태 길이를 갖는 요청들의 배치에 대해 배칭 연산들이 수행될 수 있게 할 수 있다.
Bibliography:Application Number: KR20220104647