-
VILA: Learning Image Aesthetics from User Comments with Vision-Language Pretraining 논문 읽기Computer Vision 2024. 3. 18. 18:30
https://arxiv.org/abs/2312.07533
Introduction
- 기존의 IAA method들은 human labeled rating scores에 의존함. 이는 인간이 인지하는 미적 정보의 너무 단순한 표현임.
- 이와는 반대로, user comments는 포괄적인 정보를 제공하며 의견과 선호도를 표현하는 자연스러운 방식임.
- 이러한 생각에 따라서, 이 논문의 저자들은
- user comment를 통해 image aesthetic을 학습하는 방식을 제안하며,
- vision-language pretaining method를 통해 멀티모달 방식으로 미적 표현을 학습 할 수 있도록 함.
- Pretraining stage에서는, contrastive objective와 generative objective를 도입하여 aesthetic [image, comments] pair를 통해 VILA-P를 학습시킬 수 있도록 했으며
- Pretraining 후에는 Rank-based adapter를 사용하여 VILA-R을 fine-tuning 할 수 있도록 했음
- 이러한 VILA 모델은 Image Aesthetic Assessment (MOS regression), Aesthetic Captioning, Zero-shot Aesthetic Tasks와 같은 downstream task에서 좋은 성능을 도출함.
Methods
1. CoCa
- VILA는 CoCa 아키텍쳐를 base로 사용함
- CoCa는 크게, 세 가지의 모듈, image encoder, unimodal text decoder, multimodal text decoder로 이루어져 있음.
- image encoder은 image embedding을 생성하며, unimodal text decoder는 입력 텍스트에 [cls] token을 덧붙여 decoder를 통과해 나온 값으로 text representation을 생성함.
- 이러한 두 가지의 representation은 vision-language contrastive objective를 통해 align됨
- multimodal text decoder는 image feature에 cross-attention을 수행하여 caption을 생성함.
CoCa에 대한 추가적인 설명: https://kk-eezz.tistory.com/98
2. Two-stage pretraining
- Vision-language pretraining 프로세스는 보통, 웹에서 크롤링된 대량의 image-text pairs를 사용함.
- 그러나, IAA Task에서는 pertaining stage에서 이러한 대량의 데이터셋을 사용시 미적인 정보가 희미해지는 문제가 있다고 함.
- 이를 해결하기 위해, two-stage pretraining process를 사용함
- 첫번째 과정에서는 LAION-5B-English 데이터셋을 사용하여 학습하고,
- 이후에 AVA-Captions를 사용하여 aesthetic image-text pair에 대해 사전학습을 진행함
3. Rank-based Adapter for fine-tuning
- pretrain된 VILA-R을 score-based IAA task를 위해 fine-tune하는 과정이 필요함.
- 이때, 전체 모델에 대해 학습을 진행하는건 비효율적이므로 가벼운 rank-based adapter module을 사용함
- rank-based adapter module은 다음과 같이 나타낼 수 있음
- 여기서 r은 aesthetic score를 나타내며, v는 image encoder에서 나온 image embedding임.
- H는 유일하게 학습되는 부분으로 D*D 차원을 갖는 linear layer임.
- w_p는 anchor로서 “good image”를 text encoder에 통과시킨 text embedding임.
- 따라서 위의 과정을 간단하게 말하면, image embedding이 “good image”와 얼마나 가까운지를 coin similarity로 측정하여 aesthetic score를 측정하겠다는 의미가 됨.
4. Loss 함수
- 배치 내에서 두 개의 샘플을 선택하고, 둘의 image feature v_i, v_j에 대해 더 높은 MOS값(l_i, l_j)을 갖는 이미지를 positive sample로 지정하고, 나머지를 negative sample로 지정함.
- m은 margin hyperparameter인데, 위의 loss는 두 개의 image에 대해 적어도 positivie sample이 negative sample보다 최소한 m만큼은 커야한다를 기준으로 학습됨.
Experiments
- AVA dataset에 대한 score-based IAA결과
- AVA-Captions dataset에 대한 결과 (comments generation)
- AVA-Style dataset에 대한 결과 (ZSL)
'Computer Vision' 카테고리의 다른 글
Parameter-Efficient Transfer Learning for NLP 논문 요약 (1) 2024.03.27 CLIP-IQA: Exploring CLIP for Assessing the Look and Feel of Images 논문 요약 (0) 2024.03.19 An Image Is Worth 16x16 Words (ViT) (2) 2024.03.13 CoCa: Contrastive Captioner 논문 읽기 (0) 2024.03.08 CLIP: Contrastive Language-Image Pre-training 논문 핵심 요약 (0) 2024.03.04