벡터-양자화된 이미지 모델링

비전 변환기 및 향상된 코드북 처리를 사용하여 벡터-양자화된 이미지 모델링을 위한 시스템 및 방법이 제공된다. 특히, 본 개시는 래스터화된 이미지 토큰을 자동회귀적으로 예측하기 위해 기계 학습 모델(예를 들어, 변환기 모델)을 사전 훈련하는 것을 포함하는 벡터-양자화된 이미지 모델링(VIM) 접근법을 제공한다. 개별 이미지 토큰은 학습된 비전 변환기 기반 VQGAN(ViT-VQGAN이라고 할 수 있는 구현 예)에서 인코딩될 수 있다. 본 개시 내용은 아키텍처에서 코드북 학습까지 바닐라(vanilla) VQGAN에 대한 여러 개선 사...

Full description

Saved in:
Bibliographic Details
Main Authors BAID GUNJAN, YU JIAHUI, KOH JING YU, LUONG THANG MINH, WANG ZIRUI, LI XIN, ZHANG HAN, XU YUANZHONG, KU ALEXANDER YEONG SHIUH, BALDRIDGE JASON MICHAEL, VASUDEVAN VIJAY, WU YONGHUI
Format Patent
LanguageKorean
Published 14.05.2024
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:비전 변환기 및 향상된 코드북 처리를 사용하여 벡터-양자화된 이미지 모델링을 위한 시스템 및 방법이 제공된다. 특히, 본 개시는 래스터화된 이미지 토큰을 자동회귀적으로 예측하기 위해 기계 학습 모델(예를 들어, 변환기 모델)을 사전 훈련하는 것을 포함하는 벡터-양자화된 이미지 모델링(VIM) 접근법을 제공한다. 개별 이미지 토큰은 학습된 비전 변환기 기반 VQGAN(ViT-VQGAN이라고 할 수 있는 구현 예)에서 인코딩될 수 있다. 본 개시 내용은 아키텍처에서 코드북 학습까지 바닐라(vanilla) VQGAN에 대한 여러 개선 사항을 제안하여 더 나은 효율성과 재구성 충실도를 제공한다. 개선된 ViT-VQGAN은 비컨디셔닝 이미지 생성, 컨디셔닝된 이미지 생성(예: 클래스 컨디셔닝된 이미지 생성), 비지도 표현 학습을 포함한 벡터-양자화된 이미지 모델링 태스크를 더욱 향상시킨다. Systems and methods are provided for vector-quantized image modeling using vision transformers and improved codebook handling. In particular, the present disclosure provides a Vector-quantized Image Modeling (VIM) approach that involves pretraining a machine learning model (e.g., Transformer model) to predict rasterized image tokens autoregressively. The discrete image tokens can be encoded from a learned Vision-Transformer-based VQGAN (example implementations of which can be referred to as ViT-VQGAN). The present disclosure proposes multiple improvements over vanilla VQGAN from architecture to codebook learning, yielding better efficiency and reconstruction fidelity. The improved ViT-VQGAN further improves vector-quantized image modeling tasks, including unconditional image generation, conditioned image generation (e.g., class-conditioned image generation), and unsupervised representation learning.
Bibliography:Application Number: KR20247012781