프로젝트

LVM 조사 - 1

Beige00 2024. 6. 24. 17:51

LVM - Large Vision Model

자연어 처리의 대규모 언어 모델(LLM)과 유사한 고급 AI 기술로 CNN, transformer와 같은 NN 아키텍처를 활용하여 이미지 분류, 물체 감지, 이미지 생성 등의 작업을 한다. 주요 기법은 transfer learning과 fine tuning을 통해 적응력을 입증하며 동시에 애플리케이션과 하드웨어 전반에 걸쳐 확장되고 있다.

 

LVM의 적용 기법

LVM은 CNN 또는 Transformer와 같은 고급 Neural Network를 사용하여 크고 다양한 이미지 혹은 동영상 데이터 세트에 대해 훈련된다. 또한 LVM은 시각과 언어 양식을 결합하여 이미지 캡션, 시각적 질문에 대한 답변, 이미지 검색과 같은 작업을 수행할 수 있다. (Multimodal)

 

LVM의 현황

LVM의 기본적인 접근법은 input vision data를 high dimensional vector로 encoding하는 것이다.

그 뒤, LVM은 이 HDV를 활용하여 라벨, 캡션 또는 새 이미지와 같은 다양한 type의 output을 생성한다.

이러한 특성 때문에 LVM은 text query와 같은 input을 Image data로 변환하는 등의 일을 할 수 있다.

(ex: 바나나가 노랗다. => 노란 바나나 이미지를 생성)

또한 LVM은 pre-trained model로 transfer learning과 fine tuning을 통해 시간이 지남에 따라 진화할 수 있는 적응성을 가지고 있다.

 

사용사례

- AlfhaFold, Duolingo, Bird Brain

 

LVM의 문제점

- LVM을 학습하고 실행하려면 상당한 데이터와 계산을 요한다. 즉, 많은 자원을 필요로 한다.

이는 비용의 문제로 이어지며, 왠만한 대기업이 아닌 이상 재정적, 환경적 문제로 이어지기 때문에 쉽지 않은 문제이다.

(Foundation model 구성의 어려움)

- LVM은 편향성이 높을 수 있다. LVM은 학습 데이터의 편향을 상속하고 증폭시켜 불공정한 결과를 초래할 수 있기 때문이다.

- LVM은 설명력이 낮다.

- 윤리적 측면 등 많은 문제점이 있다.

 

LVM의 기본적인 작동 원리

image input -> CNN을 통한 이미지 추출 -> Pooling(robust, dimension reduce) -> Activation Functions -> Global Average Pooling, Fully Connected Layers -> Backpropagation, Optimization