728x90
반응형
| Model name | Developer | Input Modalities | Realsed | Description |
|---|---|---|---|---|
| GPT-4 | OpenAI | 텍스트, 이미지 | 2023년 3월 | 텍스트와 이미지 입력을 처리하는 멀티모달 모델로, 이전 버전보다 향상된 언어 이해 및 생성 능력을 보유. |
| 제미니(Gemini) | Google DeepMind | 텍스트, 이미지, 오디오, 비디오, 코드 | 2024년 12월 | 다양한 모달리티를 처리하며, 특히 수학 문제 해결 및 추론 능력이 강화된 차세대 AI 모델. |
| LLaVA | UW, Microsoft | 텍스트, 이미지 | 2023년 4월 | 오픈소스 기반으로, GPT-4와 유사한 멀티모달 언어 모델을 개발하기 위해 공개됨. |
| 허니비(HoneyBee) | 카카오브레인 | 텍스트, 이미지 | 2023년 12월 | 이미지와 텍스트를 모두 입력받아 처리할 수 있는 멀티모달 언어 모델로, 이미지 내용 이해 및 질문 응답 기능을 제공. |
| 큐원 2.5(Qwen 2.5) | Alibaba DAMO | 텍스트, 이미지 | 2024년 9월 | 다양한 모달리티를 처리하며, 생성 AI 오픈 소스 생태계를 가속화하기 위해 공개된 모델. |
| 라마 3.2(Llama 3.2) | Meta | 텍스트, 이미지 | 2024년 9월 | 이미지와 텍스트를 동시에 처리할 수 있는 멀티모달 AI 모델로, 경량화된 버전도 제공되어 엣지 및 모바일 기기에서 활용 가능. |
| Kanana-v | 카카오 | 텍스트, 이미지 | 2023년 12월 | 이미지 이해에 특화된 멀티모달 언어 모델로, 이미지 내용 파악 및 질문 응답 기능을 제공. |
| CoLLaVO | KAIST | 텍스트, 이미지 | 2024년 6월 | 이미지 내 배경 및 물체를 구분하는 능력이 향상된 멀티모달 언어 모델로, 시각적 이해 능력이 강화됨. |
| MoAI | KAIST | 텍스트, 이미지 | 2024년 6월 | 인간의 인지과학적 요소를 반영하여 이미지의 상세하고 종합적인 이해를 가능하게 한 멀티모달 언어 모델. |
Leaderboard
https://lmsys.org/blog/2024-06-27-multimodal/
| 모델 이름 | 분류 | 개발사 | 출시일 | 입력 모달리티 | 간단한 소개 |
|---|---|---|---|---|---|
| MiniCPM-Llama3-V 2.6 | 오픈소스 | OpenBMB | 2024.08 | 텍스트/영상/3D 데이터 | 3D 컨볼루션 어댑터로 시간적 관계 학습 최적화 |
| InternVL-Chat-V1.5 | 오픈소스 | Shanghai AI Lab | 2024.07 | 텍스트/이미지/센서 데이터 | 12개 언어 지원, 에지 디바이스용 4비트 양자화 기술 통합 |
| NVLM 1.0 | 오픈소스 | KAIST AI 연구소 | 2024.06 | 8K 이미지/텍스트 | 4096차원 시각-언어 임베딩 공간으로 고해상도 이미지 처리 강화 |
| KoLLaVA 1.5 | 오픈소스 | NAVER Clova | 2024.05 | 한국어 텍스트/이미지 | 한국어 특화 멀티모델 데이터셋(745K pairs) 활용 |
| LLaVA-1.6 | 오픈소스 | UW-Madison | 2024.04 | 텍스트/이미지/동영상 | Stable Diffusion 합성 데이터 1M개 생성으로 일반화 성능 극대화 |
| GPT-4V | 프로프라이어터리 | OpenAI | 2023.09 | 텍스트/이미지/음성 | 16K GPU 클러스터 학습, Azure 서비스와 실시간 음성-시각 통합 |
| Janus Pro | 프로프라이어터리 | DeepSeek | 2024.03 | 텍스트/3D 모델/동영상 | 하이브리드 트레이닝 파이프라인으로 이미지 생성/분석 동시 최적화 |
| DALL-E 3 | 프로프라이어터리 | OpenAI | 2023.11 | 텍스트/스케치 | Photoshop 플러그인 통합, 레이어별 편집 이력 추적 기능 |
| Florence-2 | 프로프라이어터리 | Microsoft | 2024.02 | 엔터프라이즈 멀티모달 데이터 | 월 2억 건 사용자 데이터 수집 기반, 합성 데이터 30% 오픈소스 공개 |
| Gemini Ultra | 프로프라이어터리 | Google DeepMind | 2023.12 | 텍스트/코드/과학 데이터 | AlphaFold 3와 연동된 생명과학 특화 멀티모달 엔진 |
728x90
반응형