-
VILA: Learning Image Aesthetics from User Comments with Vision-Language Pretraining 논문 읽기Computer Vision 2024. 3. 18. 18:30
https://arxiv.org/abs/2312.07533
VILA: On Pre-training for Visual Language Models
Visual language models (VLMs) rapidly progressed with the recent success of large language models. There have been growing efforts on visual instruction tuning to extend the LLM with visual inputs, but lacks an in-depth study of the visual language pre-tra
arxiv.org
Introduction
- 기존의 IAA method들은 human labeled rating scores에 의존함. 이는 인간이 인지하는 미적 정보의 너무 단순한 표현임.
- 이와는 반대로, user comments는 포괄적인 정보를 제공하며 의견과 선호도를 표현하는 자연스러운 방식임.
- 이러한 생각에 따라서, 이 논문의 저자들은
- user comment를 통해 image aesthetic을 학습하는 방식을 제안하며,
- vision-language pretaining method를 통해 멀티모달 방식으로 미적 표현을 학습 할 수 있도록 함.
- Pretraining stage에서는, contrastive objective와 generative objective를 도입하여 aesthetic [image, comments] pair를 통해 VILA-P를 학습시킬 수 있도록 했으며
- Pretraining 후에는 Rank-based adapter를 사용하여 VILA-R을 fine-tuning 할 수 있도록 했음
- 이러한 VILA 모델은 Image Aesthetic Assessment (MOS regression), Aesthetic Captioning, Zero-shot Aesthetic Tasks와 같은 downstream task에서 좋은 성능을 도출함.
Methods
1. CoCa
- VILA는 CoCa 아키텍쳐를 base로 사용함
- CoCa는 크게, 세 가지의 모듈, image encoder, unimodal text decoder, multimodal text decoder로 이루어져 있음.
- image encoder은 image embedding을 생성하며, unimodal text decoder는 입력 텍스트에 [cls] token을 덧붙여 decoder를 통과해 나온 값으로 text representation을 생성함.
- 이러한 두 가지의 representation은 vision-language contrastive objective를 통해 align됨
- multimodal text decoder는 image feature에 cross-attention을 수행하여 caption을 생성함.
CoCa에 대한 추가적인 설명: https://kk-eezz.tistory.com/98
CoCa: Contrastive Captioner 논문 읽기
https://arxiv.org/abs/2205.01917 CoCa: Contrastive Captioners are Image-Text Foundation Models Exploring large-scale pretrained foundation models is of significant interest in computer vision because these models can be quickly transferred to many downstre
kk-eezz.tistory.com
2. Two-stage pretraining
- Vision-language pretraining 프로세스는 보통, 웹에서 크롤링된 대량의 image-text pairs를 사용함.
- 그러나, IAA Task에서는 pertaining stage에서 이러한 대량의 데이터셋을 사용시 미적인 정보가 희미해지는 문제가 있다고 함.
- 이를 해결하기 위해, two-stage pretraining process를 사용함
- 첫번째 과정에서는 LAION-5B-English 데이터셋을 사용하여 학습하고,
- 이후에 AVA-Captions를 사용하여 aesthetic image-text pair에 대해 사전학습을 진행함
3. Rank-based Adapter for fine-tuning
- pretrain된 VILA-R을 score-based IAA task를 위해 fine-tune하는 과정이 필요함.
- 이때, 전체 모델에 대해 학습을 진행하는건 비효율적이므로 가벼운 rank-based adapter module을 사용함
- rank-based adapter module은 다음과 같이 나타낼 수 있음
- 여기서 r은 aesthetic score를 나타내며, v는 image encoder에서 나온 image embedding임.
- H는 유일하게 학습되는 부분으로 D*D 차원을 갖는 linear layer임.
- w_p는 anchor로서 “good image”를 text encoder에 통과시킨 text embedding임.
- 따라서 위의 과정을 간단하게 말하면, image embedding이 “good image”와 얼마나 가까운지를 coin similarity로 측정하여 aesthetic score를 측정하겠다는 의미가 됨.
4. Loss 함수
- 배치 내에서 두 개의 샘플을 선택하고, 둘의 image feature v_i, v_j에 대해 더 높은 MOS값(l_i, l_j)을 갖는 이미지를 positive sample로 지정하고, 나머지를 negative sample로 지정함.
- m은 margin hyperparameter인데, 위의 loss는 두 개의 image에 대해 적어도 positivie sample이 negative sample보다 최소한 m만큼은 커야한다를 기준으로 학습됨.
Experiments
- AVA dataset에 대한 score-based IAA결과
- AVA-Captions dataset에 대한 결과 (comments generation)
- AVA-Style dataset에 대한 결과 (ZSL)
'Computer Vision' 카테고리의 다른 글
Parameter-Efficient Transfer Learning for NLP 논문 요약 (1) 2024.03.27 CLIP-IQA: Exploring CLIP for Assessing the Look and Feel of Images 논문 요약 (0) 2024.03.19 An Image Is Worth 16x16 Words (ViT) (2) 2024.03.13 CoCa: Contrastive Captioner 논문 읽기 (0) 2024.03.08 CLIP: Contrastive Language-Image Pre-training 논문 핵심 요약 (0) 2024.03.04