METHOD WITH NEURAL NETWORK INFERENCE OPTIMIZATION AND COMPUTING APPARATUS PERFORMING THE METHOD
Disclosed is an optimization method for a neural network inference. In one embodiment, the optimization method for the neural network inference predicts the number of input data of a next section of a first section using the number of input data of the first section and the number of input data of o...
Saved in:
Main Authors | , |
---|---|
Format | Patent |
Language | English Korean |
Published |
23.03.2022
|
Subjects | |
Online Access | Get full text |
Cover
Loading…
Summary: | Disclosed is an optimization method for a neural network inference. In one embodiment, the optimization method for the neural network inference predicts the number of input data of a next section of a first section using the number of input data of the first section and the number of input data of one or more previous sections of the first section, determines the predicted number of input data as a batch size of the next section, determines whether or not pipelining is to be performed in a target device based on a resource state of the target device, and allows an inference policy comprising the determined batch size and the information indicating whether or not the pipelining is performed in the target device to be applied to the target device.
뉴럴 네트워크 추론을 위한 최적화 방법이 개시된다. 일 실시예는 제1 구간의 입력 데이터 개수 및 상기 제1 구간의 하나 이상의 이전 구간의 입력 데이터 개수를 이용하여 상기 제1 구간의 다음 구간의 입력 데이터 개수를 예측하고, 상기 예측된 입력 데이터 개수를 상기 다음 구간의 배치 사이즈로 결정하며, 타겟 디바이스의 자원 상태를 기초로 상기 타겟 디바이스에서 파이프라이닝이 수행될지 여부를 결정하고, 상기 결정된 배치 사이즈 및 상기 파이프라이닝이 상기 타겟 디바이스에서 수행되는지 여부를 나타내는 정보를 포함하는 추론 정책을 상기 타겟 디바이스에 적용한다. |
---|---|
Bibliography: | Application Number: KR20200118759 |