-
CLIP-IQA: Exploring CLIP for Assessing the Look and Feel of Images 논문 요약Computer Vision 2024. 3. 19. 23:00
https://arxiv.org/abs/2207.12396
Exploring CLIP for Assessing the Look and Feel of Images
Measuring the perception of visual content is a long-standing problem in computer vision. Many mathematical models have been developed to evaluate the look or quality of an image. Despite the effectiveness of such tools in quantifying degradations such as
arxiv.org
Idea
- 대규모의 image-text pair로 학습되는 CLIP이 인간의 언어와 시각적인 정보 사이의 관계를 학습했을 것이라고 가정하고 이를 활용하여 Image의 quality와 abstract perception (추상적인 인지, feel)을 평가하고자 함
- Prompt Design으로 antonym prompt pairing strategy(반의어 쌍, [“good photo”,,“bad photo”])를 통해 image의 quality를 측정할 수 있도록 함.
- 더해서 [bright, dark]와 같은 prompt pair를 통한 fine-grained quality(품질 세부 분야)와, [happy, sad]와 같은 prompt pair를 통해 이미지의 느낌(feeling) 측정 결과도 탐색해봄
Methology
1. Antonym prompt pairing
- 텍스트 “Good photo”와 주어진 이미지 간의 cosine similarity를 직접적으로 구함.
- x: image, t: text, s: score
- 언어적 중의성을 피하고자 두 개의 반의어를 묶어서 구하도록 함.
- t1, t2는 각각 [”Good photo”, “Bad photo”]에 해당하는 text feature
- 그 다음 Softmax 함수를 통해 score 계산. 여기서 score가 높다는 것은 t1과 가깝다는것을 의미하게 됨.
2. Removal of positional encoding
- CLIP의 한가지 한계점은 고정된 크기의 이미지를 입력으로 받는다는 점임.
- 고정된 크기의 입력은 필연적으로 서로 다른 크기의 이미지들을 resize하는 과정을 거치게 되며 결과적으로 이미지의 최종 점수 예측에 좋지 않은 영향을 주게 됨.
- CLIP이 고정된 크기의 입력을 받는 이유는 positional encoding 때문임
- CLIP-IQA는 이러한 문제점을 갖는 positional embedding을 아예 제거하고 inductive bias에 더 강한 ResNet의 variant를 사용하도록 했음. 이는 성능 측면에서 좋은 영향을 주었음.
Experiments
1. Quality Perception
- A: with task-specific training
- B: without task-specific training
- Red: best, Blue: second best
- CLIP-IQA+는 CoOP(Context optimization) 알고리즘을 통해 초기 prompt ([”good photo”, ”bad photo”])를 fine-tuning한 모델
2. Fine-grained quality
- “good”과 “bad” 두 개의 단어를 바꾸어서 세부적인 요소 평가 작업에 적용해봄.
- 예를 들어,”Dark photo”, “Bright photo”를 사용함.
- 다섯가지 요소, brightness, noisiness, color-fulness, sharpness에 대해 KonIQ-10k 데이터셋으로 실험해본 결과, 각 요소의 값에 대해 high correlation을 갖는 것을 확인할 수 있었음.
- 또한, 네 개의 non-synthetic 벤치마크에 대해 low-quality image와 high-quality image에 대해 값의 분포를 비교해본 결과 확연한 차이가 있음을 확인할 수 있었음
3. Abstract Perception
- AVA dataset에 대해 happy/sad, scary/peaceful, complex/simple, natural/synthetic, new/old 이렇게 다섯가지의 요소로 인간의 인지하는 척도와 CLIP-IQA의 score를 비교하는 실험을 진행함.
- 두 개의 이미지에 대해 더 높은 점수를 갖는 이미지를 positive image, 다른 하나를 negative image로 설정했을 때, 인간이 선택한 선택지와 약 80%의 일치율을 보이는 것을 확인할 수 있었음.
4. Prompt Design/Backbone of Image Encoder
(1): “[text] photo”
(2): “A photo of [text]”
(3): “There is [text] in the photo”
(a): “Good/Bad”
(b): “High quality/Low quality”
(c): “high definition/low definition”
- 실험 결과를 보면 알 수 있듯이 CLIP-IQA는 prompt 선택에 민감함
- Backbone 선택에 따른 성능 결과도 정리되어있는데, positional embedding을 제외한 resent-50의 성능이 interpolated positional embedding을 사용했을 때보다 좋음
Limitations
- CLIP-IQA는 prompt 선택에 민감함.
- 흔히 사용되지 않는 단어 (전문 용어)를 사용했을때는 성능이 좋지 않음
- Task-specific method와의 성능 차이가 존재함.
'Computer Vision' 카테고리의 다른 글
MLP-Mixer: An all-MLP Architecture for Vision 논문 요약 (1) 2024.03.29 Parameter-Efficient Transfer Learning for NLP 논문 요약 (1) 2024.03.27 VILA: Learning Image Aesthetics from User Comments with Vision-Language Pretraining 논문 읽기 (1) 2024.03.18 An Image Is Worth 16x16 Words (ViT) (2) 2024.03.13 CoCa: Contrastive Captioner 논문 읽기 (0) 2024.03.08