벡터-양자화된 이미지 모델링
비전 변환기 및 향상된 코드북 처리를 사용하여 벡터-양자화된 이미지 모델링을 위한 시스템 및 방법이 제공된다. 특히, 본 개시는 래스터화된 이미지 토큰을 자동회귀적으로 예측하기 위해 기계 학습 모델(예를 들어, 변환기 모델)을 사전 훈련하는 것을 포함하는 벡터-양자화된 이미지 모델링(VIM) 접근법을 제공한다. 개별 이미지 토큰은 학습된 비전 변환기 기반 VQGAN(ViT-VQGAN이라고 할 수 있는 구현 예)에서 인코딩될 수 있다. 본 개시 내용은 아키텍처에서 코드북 학습까지 바닐라(vanilla) VQGAN에 대한 여러 개선 사...
Saved in:
Main Authors | , , , , , , , , , , , |
---|---|
Format | Patent |
Language | Korean |
Published |
14.05.2024
|
Subjects | |
Online Access | Get full text |
Cover
Loading…
Be the first to leave a comment!