AI/Multimodal AI

VLM이란?Vision-Language ModelMultimodal AI의 한 종류이미지와 텍스트를 함께 이해하고 처리할 수 있는 모델 VLM 응용 예시Image Captioning: 이미지를 보고 설명하기VQA(Visual Question Answering): 질문 답변Text-to-Image Retrieval: 텍스트로 이미지 검색Text-to-Image Generation: 텍스트로 이미지 생성 VLM 구조입력 인코딩 -> 모달 융합 -> 출력 생성(예측) 3단계 구조 입력 인코딩 (Input Encoding)Vision Encoder: 이미지를 벡터 형태로 변환. CNN이나 *ViT 사용Language Encoder: 텍스트를 벡터 형태로 변환. BERT, GPT 등 사용*ViT: 이미지를 패치..
Multimodal AI란?이미지, 텍스트, 음성 등 여러 가지 유형의 데이터를 동시에 처리하고 분석하는 인공지능multi: 복수의, 다수의 / modal: modality, 양상 -> AI에서는 "데이터의 종류 또는 감각의 형태" Multimodal 예시이미지 설명 생성 (Image Captioning) - 이미지, 텍스트음성 비서 (빅스비, 시리) - 오디오, 텍스트영상 자막 생성 - 비디오, 텍스트텍스트로 이미지 검색 - 텍스트, 이미지감정 분석 - 이미지, 텍스트 Multimodal 기술Fusion: 서로 다른 모달리티를 결합하는 기술Early Fusion: 데이터를 입력 전에 결합하여 하나의 통합된 벡터로 만드는 방식이다. 모델이 상호 관계를 학습하여 파악할 수 있지만 데이터가 많을수록 고차..
abbiddo
'AI/Multimodal AI' 카테고리의 글 목록