-
CLIP-IQA: Exploring CLIP for Assessing the Look and Feel of Images 논문 요약Computer Vision 2024. 3. 19. 23:00
https://arxiv.org/abs/2207.12396
Idea
- 대규모의 image-text pair로 학습되는 CLIP이 인간의 언어와 시각적인 정보 사이의 관계를 학습했을 것이라고 가정하고 이를 활용하여 Image의 quality와 abstract perception (추상적인 인지, feel)을 평가하고자 함
- Prompt Design으로 antonym prompt pairing strategy(반의어 쌍, [“good photo”,,“bad photo”])를 통해 image의 quality를 측정할 수 있도록 함.
- 더해서 [bright, dark]와 같은 prompt pair를 통한 fine-grained quality(품질 세부 분야)와, [happy, sad]와 같은 prompt pair를 통해 이미지의 느낌(feeling) 측정 결과도 탐색해봄
Methology
1. Antonym prompt pairing
- 텍스트 “Good photo”와 주어진 이미지 간의 cosine similarity를 직접적으로 구함.
- x: image, t: text, s: score
- 언어적 중의성을 피하고자 두 개의 반의어를 묶어서 구하도록 함.
- t1, t2는 각각 [”Good photo”, “Bad photo”]에 해당하는 text feature
- 그 다음 Softmax 함수를 통해 score 계산. 여기서 score가 높다는 것은 t1과 가깝다는것을 의미하게 됨.
2. Removal of positional encoding
- CLIP의 한가지 한계점은 고정된 크기의 이미지를 입력으로 받는다는 점임.
- 고정된 크기의 입력은 필연적으로 서로 다른 크기의 이미지들을 resize하는 과정을 거치게 되며 결과적으로 이미지의 최종 점수 예측에 좋지 않은 영향을 주게 됨.
- CLIP이 고정된 크기의 입력을 받는 이유는 positional encoding 때문임
- CLIP-IQA는 이러한 문제점을 갖는 positional embedding을 아예 제거하고 inductive bias에 더 강한 ResNet의 variant를 사용하도록 했음. 이는 성능 측면에서 좋은 영향을 주었음.
Experiments
1. Quality Perception
- A: with task-specific training
- B: without task-specific training
- Red: best, Blue: second best
- CLIP-IQA+는 CoOP(Context optimization) 알고리즘을 통해 초기 prompt ([”good photo”, ”bad photo”])를 fine-tuning한 모델
2. Fine-grained quality
- “good”과 “bad” 두 개의 단어를 바꾸어서 세부적인 요소 평가 작업에 적용해봄.
- 예를 들어,”Dark photo”, “Bright photo”를 사용함.
- 다섯가지 요소, brightness, noisiness, color-fulness, sharpness에 대해 KonIQ-10k 데이터셋으로 실험해본 결과, 각 요소의 값에 대해 high correlation을 갖는 것을 확인할 수 있었음.
- 또한, 네 개의 non-synthetic 벤치마크에 대해 low-quality image와 high-quality image에 대해 값의 분포를 비교해본 결과 확연한 차이가 있음을 확인할 수 있었음
3. Abstract Perception
- AVA dataset에 대해 happy/sad, scary/peaceful, complex/simple, natural/synthetic, new/old 이렇게 다섯가지의 요소로 인간의 인지하는 척도와 CLIP-IQA의 score를 비교하는 실험을 진행함.
- 두 개의 이미지에 대해 더 높은 점수를 갖는 이미지를 positive image, 다른 하나를 negative image로 설정했을 때, 인간이 선택한 선택지와 약 80%의 일치율을 보이는 것을 확인할 수 있었음.
4. Prompt Design/Backbone of Image Encoder
(1): “[text] photo”
(2): “A photo of [text]”
(3): “There is [text] in the photo”
(a): “Good/Bad”
(b): “High quality/Low quality”
(c): “high definition/low definition”
- 실험 결과를 보면 알 수 있듯이 CLIP-IQA는 prompt 선택에 민감함
- Backbone 선택에 따른 성능 결과도 정리되어있는데, positional embedding을 제외한 resent-50의 성능이 interpolated positional embedding을 사용했을 때보다 좋음
Limitations
- CLIP-IQA는 prompt 선택에 민감함.
- 흔히 사용되지 않는 단어 (전문 용어)를 사용했을때는 성능이 좋지 않음
- Task-specific method와의 성능 차이가 존재함.
'Computer Vision' 카테고리의 다른 글
MLP-Mixer: An all-MLP Architecture for Vision 논문 요약 (1) 2024.03.29 Parameter-Efficient Transfer Learning for NLP 논문 요약 (1) 2024.03.27 VILA: Learning Image Aesthetics from User Comments with Vision-Language Pretraining 논문 읽기 (1) 2024.03.18 An Image Is Worth 16x16 Words (ViT) (2) 2024.03.13 CoCa: Contrastive Captioner 논문 읽기 (0) 2024.03.08