250x250

블로그 메뉴

  • 홈
  • 태그
  • 글쓰기
  • 관리하기
  • 분류 전체보기 (63)
    • 자료구조 | 알고리즘 (52)
      • 백준 (38)
      • SWEA (14)
    • AI | ML | DL | DS (4)
      • Time series (2)
      • Transformer (1)
      • Efficient LLM (1)

인기 글

전체 방문자
오늘
어제
hELLO · Designed By 정상우.
우르륵꽊갺

Notas

카테고리 없음

multi-modal large language models

2025. 3. 10. 20:38
728x90
반응형
Model name Developer Input Modalities Realsed Description
GPT-4 OpenAI 텍스트, 이미지 2023년 3월 텍스트와 이미지 입력을 처리하는 멀티모달 모델로, 이전 버전보다 향상된 언어 이해 및 생성 능력을 보유.
제미니(Gemini) Google DeepMind 텍스트, 이미지, 오디오, 비디오, 코드 2024년 12월 다양한 모달리티를 처리하며, 특히 수학 문제 해결 및 추론 능력이 강화된 차세대 AI 모델.
LLaVA UW, Microsoft 텍스트, 이미지 2023년 4월 오픈소스 기반으로, GPT-4와 유사한 멀티모달 언어 모델을 개발하기 위해 공개됨.
허니비(HoneyBee) 카카오브레인 텍스트, 이미지 2023년 12월 이미지와 텍스트를 모두 입력받아 처리할 수 있는 멀티모달 언어 모델로, 이미지 내용 이해 및 질문 응답 기능을 제공.
큐원 2.5(Qwen 2.5) Alibaba DAMO 텍스트, 이미지 2024년 9월 다양한 모달리티를 처리하며, 생성 AI 오픈 소스 생태계를 가속화하기 위해 공개된 모델.
라마 3.2(Llama 3.2) Meta 텍스트, 이미지 2024년 9월 이미지와 텍스트를 동시에 처리할 수 있는 멀티모달 AI 모델로, 경량화된 버전도 제공되어 엣지 및 모바일 기기에서 활용 가능.
Kanana-v 카카오 텍스트, 이미지 2023년 12월 이미지 이해에 특화된 멀티모달 언어 모델로, 이미지 내용 파악 및 질문 응답 기능을 제공.
CoLLaVO KAIST 텍스트, 이미지 2024년 6월 이미지 내 배경 및 물체를 구분하는 능력이 향상된 멀티모달 언어 모델로, 시각적 이해 능력이 강화됨.
MoAI KAIST 텍스트, 이미지 2024년 6월 인간의 인지과학적 요소를 반영하여 이미지의 상세하고 종합적인 이해를 가능하게 한 멀티모달 언어 모델.

Leaderboard

https://lmsys.org/blog/2024-06-27-multimodal/

모델 이름 분류 개발사 출시일 입력 모달리티 간단한 소개
MiniCPM-Llama3-V 2.6 오픈소스 OpenBMB 2024.08 텍스트/영상/3D 데이터 3D 컨볼루션 어댑터로 시간적 관계 학습 최적화
InternVL-Chat-V1.5 오픈소스 Shanghai AI Lab 2024.07 텍스트/이미지/센서 데이터 12개 언어 지원, 에지 디바이스용 4비트 양자화 기술 통합
NVLM 1.0 오픈소스 KAIST AI 연구소 2024.06 8K 이미지/텍스트 4096차원 시각-언어 임베딩 공간으로 고해상도 이미지 처리 강화
KoLLaVA 1.5 오픈소스 NAVER Clova 2024.05 한국어 텍스트/이미지 한국어 특화 멀티모델 데이터셋(745K pairs) 활용
LLaVA-1.6 오픈소스 UW-Madison 2024.04 텍스트/이미지/동영상 Stable Diffusion 합성 데이터 1M개 생성으로 일반화 성능 극대화
GPT-4V 프로프라이어터리 OpenAI 2023.09 텍스트/이미지/음성 16K GPU 클러스터 학습, Azure 서비스와 실시간 음성-시각 통합
Janus Pro 프로프라이어터리 DeepSeek 2024.03 텍스트/3D 모델/동영상 하이브리드 트레이닝 파이프라인으로 이미지 생성/분석 동시 최적화
DALL-E 3 프로프라이어터리 OpenAI 2023.11 텍스트/스케치 Photoshop 플러그인 통합, 레이어별 편집 이력 추적 기능
Florence-2 프로프라이어터리 Microsoft 2024.02 엔터프라이즈 멀티모달 데이터 월 2억 건 사용자 데이터 수집 기반, 합성 데이터 30% 오픈소스 공개
Gemini Ultra 프로프라이어터리 Google DeepMind 2023.12 텍스트/코드/과학 데이터 AlphaFold 3와 연동된 생명과학 특화 멀티모달 엔진
728x90
반응형
저작자표시 비영리 변경금지 (새창열림)
    우르륵꽊갺
    우르륵꽊갺
    cs, AI, ML 공부하며 기록하는 공간. 부끄럽지만 천천히 성장하기.

    티스토리툴바