벡터-양자화된 이미지 모델링

비전 변환기 및 향상된 코드북 처리를 사용하여 벡터-양자화된 이미지 모델링을 위한 시스템 및 방법이 제공된다. 특히, 본 개시는 래스터화된 이미지 토큰을 자동회귀적으로 예측하기 위해 기계 학습 모델(예를 들어, 변환기 모델)을 사전 훈련하는 것을 포함하는 벡터-양자화된 이미지 모델링(VIM) 접근법을 제공한다. 개별 이미지 토큰은 학습된 비전 변환기 기반 VQGAN(ViT-VQGAN이라고 할 수 있는 구현 예)에서 인코딩될 수 있다. 본 개시 내용은 아키텍처에서 코드북 학습까지 바닐라(vanilla) VQGAN에 대한 여러 개선 사...

Full description

Saved in:
Bibliographic Details
Main Authors BAID GUNJAN, YU JIAHUI, KOH JING YU, LUONG THANG MINH, WANG ZIRUI, LI XIN, ZHANG HAN, XU YUANZHONG, KU ALEXANDER YEONG SHIUH, BALDRIDGE JASON MICHAEL, VASUDEVAN VIJAY, WU YONGHUI
Format Patent
LanguageKorean
Published 14.05.2024
Subjects
Online AccessGet full text

Cover

Loading…