* https://openai.com/index/clip/ 를 읽고 작성한 글입니다. CLIP(Contrastive Language-Image Pre-training) 모델은 자연어를 통해 시각적 개념을 효율적으로 학습할 수 있게 설계된 신경망이다. 이 모델은 GPT-2, GPT-3의 "제로 샷"과 유사하게, 인식해야 할 시각적 카테고리의 이름마 제공하면 어떤 시각적 분류 벤치마크에도 이용할 수 있다. CLIP은 인터넷에서 발견되는 (이미지-텍스트) 쌍을 이용한다. 이 데이터를 이용하여 주어진 이미지에 대해 무작위로 샘플링된 32,768 개의 텍스트 스니펫 세트 중에서 실제로 데이터 세트에서 어떤 것과 쌍을 이루었는지 예측하는 proxy training task를 만든다.더보기Proxy Training ..