ELECTRONIC DEVICE FOR INFERRING OBJECT IN VIDEO AND INFERENCE METHOD

Provided is a method for an electronic device to infer an object in a video by using a Convolution Neural Network (CNN) model. The method comprises the steps of: providing a first frame among a plurality of frames in the video to a plurality of sequentially connected convolution layer groups in the...

Full description

Saved in:
Bibliographic Details
Main Authors KIM, Kyounghoon, HAN, Sangbok, SONG, Sihoon
Format Patent
LanguageEnglish
French
Korean
Published 27.01.2022
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:Provided is a method for an electronic device to infer an object in a video by using a Convolution Neural Network (CNN) model. The method comprises the steps of: providing a first frame among a plurality of frames in the video to a plurality of sequentially connected convolution layer groups in the CNN model to identify a first area of interest in the first frame and a first object in the first area of interest; identifying a second area of interest in a second frame among the plurality of frames, wherein the second area of interest corresponds to the first area of interest, and the second frame comes after the first frame; providing the second area of interest to the CNN model and acquiring first output data output from a first convolution layer group among the plurality of convolution layer groups; and determining, on the basis of the first output data, whether to identify a second object in the second area of interest by using a second convolution layer group, which comes after the first convolution layer group, among the plurality of convolution layer groups. L'invention concerne un procédé pour qu'un dispositif électronique infère un objet dans une vidéo à l'aide d'un modèle de réseau de neurones à convolution (CNN). Le procédé comprend les étapes consistant à : fournir une première trame parmi une pluralité de trames dans la vidéo à une pluralité de groupes de couches de convolution séquentiellement connectés dans le modèle de CNN pour identifier une première zone d'intérêt dans la première trame et un premier objet dans la première zone d'intérêt ; identifier une seconde zone d'intérêt dans une seconde trame parmi la pluralité de trames, la seconde zone d'intérêt correspondant à la première zone d'intérêt et la seconde trame venant après la première trame ; fournir la seconde zone d'intérêt au modèle de CNN et acquérir des premières données de sortie délivrées par un premier groupe de couches de convolution parmi la pluralité de groupes de couches de convolution ; et déterminer, sur la base des premières données de sortie, s'il faut identifier un second objet dans la seconde zone d'intérêt à l'aide d'un second groupe de couches de convolution, qui vient après le premier groupe de couches de convolution, parmi la pluralité de groupes de couches de convolution. 전자 장치가 컨볼루션 신경망(Convolution Neural Network: CNN) 모델을 이용하여 동영상 내에서 객체를 추론하는 방법이 제공된다. 상기 방법은, 상기 동영상 내의 복수의 프레임들 중 제1 프레임을, 상기 컨볼루션 신경망 모델 내의 순차적으로 연결된 복수의 컨볼루션 레이어 그룹들에 제공하여, 상기 제1 프레임 내의 제1 관심 영역 및 상기 제1 관심 영역 내의 제1 객체를 식별하는 단계, 복수의 프레임들 중 제2 프레임 내의 제2 관심 영역을 식별하되, 상기 제2 관심 영역은 상기 제1 관심 영역에 대응되고, 상기 제2 프레임은 상기 제1 프레임 이후의 프레임인, 단계, 상기 제2 관심 영역을 상기 컨볼루션 신경망 모델에 제공하고, 상기 복수의 컨볼루션 레이어 그룹들 중 제1 컨볼루션 레이어 그룹으로부터 출력되는 제1 출력 데이터를 획득하는 단계, 상기 제1 출력 데이터에 기초하여, 상기 복수의 컨볼루션 레이어 그룹들 중에서 상기 제1 컨볼루션 레이어 그룹 이후의 제2 컨볼루션 레이어 그룹을 이용하여, 상기 제2 관심 영역 내의 제2 객체를 식별할 지를 결정하는 단계를 포함할 수 있다.
Bibliography:Application Number: WO2021KR09201