벡터-양자화된 이미지 모델링
비전 변환기 및 향상된 코드북 처리를 사용하여 벡터-양자화된 이미지 모델링을 위한 시스템 및 방법이 제공된다. 특히, 본 개시는 래스터화된 이미지 토큰을 자동회귀적으로 예측하기 위해 기계 학습 모델(예를 들어, 변환기 모델)을 사전 훈련하는 것을 포함하는 벡터-양자화된 이미지 모델링(VIM) 접근법을 제공한다. 개별 이미지 토큰은 학습된 비전 변환기 기반 VQGAN(ViT-VQGAN이라고 할 수 있는 구현 예)에서 인코딩될 수 있다. 본 개시 내용은 아키텍처에서 코드북 학습까지 바닐라(vanilla) VQGAN에 대한 여러 개선 사...
Saved in:
Main Authors | , , , , , , , , , , , |
---|---|
Format | Patent |
Language | Korean |
Published |
14.05.2024
|
Subjects | |
Online Access | Get full text |
Cover
Loading…
Summary: | 비전 변환기 및 향상된 코드북 처리를 사용하여 벡터-양자화된 이미지 모델링을 위한 시스템 및 방법이 제공된다. 특히, 본 개시는 래스터화된 이미지 토큰을 자동회귀적으로 예측하기 위해 기계 학습 모델(예를 들어, 변환기 모델)을 사전 훈련하는 것을 포함하는 벡터-양자화된 이미지 모델링(VIM) 접근법을 제공한다. 개별 이미지 토큰은 학습된 비전 변환기 기반 VQGAN(ViT-VQGAN이라고 할 수 있는 구현 예)에서 인코딩될 수 있다. 본 개시 내용은 아키텍처에서 코드북 학습까지 바닐라(vanilla) VQGAN에 대한 여러 개선 사항을 제안하여 더 나은 효율성과 재구성 충실도를 제공한다. 개선된 ViT-VQGAN은 비컨디셔닝 이미지 생성, 컨디셔닝된 이미지 생성(예: 클래스 컨디셔닝된 이미지 생성), 비지도 표현 학습을 포함한 벡터-양자화된 이미지 모델링 태스크를 더욱 향상시킨다.
Systems and methods are provided for vector-quantized image modeling using vision transformers and improved codebook handling. In particular, the present disclosure provides a Vector-quantized Image Modeling (VIM) approach that involves pretraining a machine learning model (e.g., Transformer model) to predict rasterized image tokens autoregressively. The discrete image tokens can be encoded from a learned Vision-Transformer-based VQGAN (example implementations of which can be referred to as ViT-VQGAN). The present disclosure proposes multiple improvements over vanilla VQGAN from architecture to codebook learning, yielding better efficiency and reconstruction fidelity. The improved ViT-VQGAN further improves vector-quantized image modeling tasks, including unconditional image generation, conditioned image generation (e.g., class-conditioned image generation), and unsupervised representation learning. |
---|---|
Bibliography: | Application Number: KR20247012781 |