NPU CREATING AN ACCURATE LATENCY LOOKUP TABLE FOR NPU

A system and a method are disclosed for estimating a latency of a layer of a neural network. A host processing device adds an auxiliary layer to a selected layer of the neural network. A neural processing unit performs an inference operation over the selected layer and the auxiliary layer. Total lat...

Full description

Saved in:
Bibliographic Details
Main Authors FANG JUN, YANG LI, THORSLEY DAVID, HASSOUN JOSEPH H
Format Patent
LanguageEnglish
Korean
Published 25.05.2023
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:A system and a method are disclosed for estimating a latency of a layer of a neural network. A host processing device adds an auxiliary layer to a selected layer of the neural network. A neural processing unit performs an inference operation over the selected layer and the auxiliary layer. Total latency is measured for the inference operation for the selected layer and the auxiliary layer, and an overhead latency is measured for the inference operation. The overhead latency is subtracted from the total latency to generate an estimate of the latency of the layer. In one embodiment, measuring the overhead latency for the inference operation that is associated with the auxiliary layer involves modeling the overhead latency based on a linear regression of an input data size that is input to the selected layer, and an output data size that is output from the auxiliary layer. Therefore, performance may be improved. 신경망의 계층의 레이턴시를 추정하기 위한 시스템 및 방법이 개시된다. 호스트 처리 장치는 신경망의 선택된 계층에 보조 계층을 추가한다. 신경 처리 유닛은 선택된 레이어와 보조 레이어에 대해 추론 연산을 실행한다. 선택된 레이어와 보조 레이어에 대한 추론 연산에 대한 총 레이턴시를 측정하고, 추론 연산에 대한 오버헤드 레이턴시를 측정한다. 총 레이턴시에서 오버헤드 레이턴시를 빼서 계층의 레이턴시의 추정치를 생성한다. 일 실시예에서, 보조 계층과 관련된 추론 연산에 대한 오버헤드 레이턴시를 측정하는 단계는 선택된 계층에 입력되는 입력 데이터 크기와 보조 계층에서 출력되는 출력 데이터 크기의 선형 회귀를 기반으로 오버헤드 레이턴시를 모델링하는 단계를 포함한다.
Bibliography:Application Number: KR20220107668