VLM이란?
- Vision-Language Model
- Multimodal AI의 한 종류
- 이미지와 텍스트를 함께 이해하고 처리할 수 있는 모델
VLM 응용 예시
- Image Captioning: 이미지를 보고 설명하기
- VQA(Visual Question Answering): 질문 답변
- Text-to-Image Retrieval: 텍스트로 이미지 검색
- Text-to-Image Generation: 텍스트로 이미지 생성
VLM 구조
- 입력 인코딩 -> 모달 융합 -> 출력 생성(예측) 3단계 구조
입력 인코딩 (Input Encoding)
- Vision Encoder: 이미지를 벡터 형태로 변환. CNN이나 *ViT 사용
- Language Encoder: 텍스트를 벡터 형태로 변환. BERT, GPT 등 사용
*ViT: 이미지를 패치 단위로 분할한 후, 이를 시퀀스처럼 처리하여 self-attention 메커니즘으로 시각 정보를 학습하는 Transformer 기반 모델이다.
모달 융합 (Modality Fusion)
- Cross-attention: 텍스트가 이미지 토큰을 주의깊게 바라보는 구조
- Late Fustion: 이미지와 텍스트를 각각 독립적으로 임베딩한 후, 코사인 유사도 등으로 매칭
- Unified Transformer: 이미지와 텍스트를 하나의 *Transformer에 통합
*Transforemr: 입력(문장, 시퀀스) 속에서 중요한 정보를 스스로 찾아내는 구조다. self-attention 메커니즘을 활용해 시퀀스 내 요소 간의 관계를 병렬적으로 학습하는 딥러닝 구조다.
출력 생성(예측) (Output)
- Image Captioning: Language decoder가 설명 생성
- VQA(Visual Question Answering): 텍스트 출력
- Text-to-Image Retrieval: 유사도 계산
- Text-to-Image Generation: *Diffusion 기반 이미지 생성
*Diffusion: 이미지 생성 방법 중 하나로, 노이즈에서 이미지를 점차적으로 복원하는 생성 방법이다.
실제 예시(CLIP)
- 이미지 -> ViT -> 임베딩 벡터 I
- 텍스트 -> Transformer -> 임베딩 벡터 T
- cos(I, T)를 최대화하도록 학습 -> 같은 이미지-텍스트 쌍은 유사도 높게, 다른 쌍은 유사도 낮게
- 설명에 맞는 이미지 탐색 가능
주요 학습 방법
- Contrastive Learning (대조 학습): 이미지와 텍스트 쌍을 주고 관련 유무를 판단한다. Positive 쌍의 유사도를 높게 하고, Negative 쌍의 유사도를 낮게 한다.
- PrefixLM: 언어 모델에 Prefix로 이미지를 입력하는 방식을 통해 이미지와 텍스트 임베딩을 통합적으로 학습한다. 왼쪽에서 오른쪽으로 단어를 순차적으로 예측하는 구조로, 이미지 캡셔닝에서는 이미지 임베딩을 prefix로 넣고, 그 다음 텍스트 캡션을 생성하는 식으로 사용할 수 있다.
- Multi-modal Fusing with Cross Attention: Cross Attention 메커니즘을 통한 비전 정보를 언어 모델의 계층으로 결합한다.
- Multimodal Pre-training (사전 학습): 다양한 모달리티를 동시에 학습해, 서로 간의 연관성을 알도록 하는 방식이다.
- MLM(Masked Language Modeling): 텍스트 일부를 마스크하고, 모델이 그 단어를 예측하는 방식
- Image-Text Matching: 이미지와 텍스트가 일치하는지 여부를 예측하는 방식
- No Training: 각각의 비전 모델과 언어 모델을 따로 사용하여 반복적인 최적화 수행을 한다.
VLM 모델
모델 | 특징 | 주요 사용 방식 | 학습 방식 |
CLIP | 대조 학습 기반 | 검색, 매칭 | Contrastive Learning |
VisualBERT | BERT 기반 | VQA, 이미지 설명 생성 | Multimodal Pre-training |
UNITER | Transformer 기반 | 매칭, VQA | Multimodal Pre-training MLM |
LXMERT | Cross-attention 방식 | VQA, 이해 | Multimodal Pre-training Cross-modality Interaction |
BLIP | Image Captioning 및 VQA 강화 모델 | VQA, 이미지 설명 생성 | Multimodal Pre-training Instruction Tuning |
FLIP | 이미지-텍스트의 융합 표현 생성 모델 | Text-to-Image Generation | Multimodal Pre-training Fusion Learning |
VLM 한계점
- 데이터 불균형과 품질 문제: 이미지-텍스트 데이터셋에서 이미지에 대한 설명이 부족하거나 부정확할 수 있다. 이로 인해 모델의 정확도가 떨어질 수 있다.(데이터 전처리, 데이터 증강)
- 모달 간 상호작용 어려움 (Cross-modal learning 개선)
- 일반화 문제: VLM은 특정 데이터셋에 학습된 모델이 일반화 되기 어렵다. 새로운 유형의 이미지나 텍스트에 대해 적절히 반응하지 못할 수 있다. (Zero-shot, Few-shot Learning)
- 모델의 크기와 계산 비용: 계산 비용이 매우 크며, 상당한 자원 소모가 발생할 수 있다.
- 해석 가능성 부족: 복잡한 네트워크 구조로 결과를 해석하거나 이해하기 어렵다.
'AI > Multimodal AI' 카테고리의 다른 글
Multimodal AI (0) | 2025.04.24 |
---|