clip모델에서 사용하는 제로샷에 대한 개념이 내가 알고 있던 지식과 서로 충돌해서
정리해보았다.
대학원 시절 제로샷에 관한 연구를 랩세미나에서 듣긴했다만 이 당시는 초창기 제로샷이라
당시 든 생각은 상용화 못되겠는데.. 이런 생각이였고 자매품 처럼 few-shot learning과 같이 언급될 시절이었다.
그래서 내가 알던 개념은 이때 당시로 멈춰있어
[전형적인 구조]
이미지 → 이미지 인코더 → visual embedding
클래스 → attribute vector → semantic embedding
학습:
visual embedding ↔ semantic embedding 정렬
[문제유형] : Image Classification
[모달리티] : Vision (+ Semantic Attributes)
[모델패러다임]: CNN (또는 shallow model)
[학습방식] : Supervised Learning
└─ Attribute-supervised
[프레임워크] : Attribute-based Zero-shot Learning
이런식으로 생각했는데
clip모델을 보면서 아무리 생각해도 내가 알고 있는 개념과 충돌해서 찾아보고 난 비교표를 분석하였다.
Zero-shot (시대별 의미)
1세대 (CLIP 이전)
├─ Attribute-based ZSL
├─ Semantic embedding (Word2Vec)
└─ 사람 설계 많음
2세대 (CLIP 이후)
├─ Natural language prompt
├─ Vision-Language foundation model
└─ 범용 zero-shot
찾아보니 CLIP모델 전후로 용어가 쓰이는 느낌이 다른것 같다
내가 알던 1세대 제로샷은 보지 않은 클래스에 대해 사람이 정의한 이미정보를 제공하는 것이였고
CLIP에서 사용하는 제로샷 모델은 대규모 사전학습된 Foundation Model을
추가 학습 없이 새로운 작업에 바로 사용하는 “사용 시나리오 중심 Zero-shot” 개념이었다.
2세대는 이미 학습된 범용 표현을 학습없이 활용하는 시나리오 개념임
Image ──▶ Image Encoder ──▶ Embedding
Text ──▶ Text Encoder ──▶ Embedding
▼
Similarity Matching
[학습방식] : Self-supervised / Weakly-supervised (Pretraining)
[사용 시나리오] : Zero-shot
즉, Zero-shot은 학습 방식이 아니라 2세대에서는 Foundation Model을 쓰는 방식을 의미함
'Deep learning > Computer Vision' 카테고리의 다른 글
| 고해상도 이미지 딥러닝 학습방법 (0) | 2026.02.13 |
|---|---|
| [딥러닝 기초] 딥러닝에서 RGB, Gray 이미지 다루는법 (0) | 2025.12.23 |
| MMpretrain custom dataset Train Base Line code _Tutorial 튜토리얼 (0) | 2024.09.20 |
| [pytorch]transform.Compose와albumentation.Compose 차이 (0) | 2022.07.21 |
| 코너검출,직렬형 분류기,ORB (0) | 2022.01.17 |
댓글