-
multi-modal large language models
Model nameDeveloperInput ModalitiesRealsedDescriptionGPT-4OpenAI텍스트, 이미지2023년 3월텍스트와 이미지 입력을 처리하는 멀티모달 모델로, 이전 버전보다 향상된 언어 이해 및 생성 능력을 보유.제미니(Gemini)Google DeepMind텍스트, 이미지, 오디오, 비디오, 코드2024년 12월다양한 모달리티를 처리하며, 특히 수학 문제 해결 및 추론 능력이 강화된 차세대 AI 모델.LLaVAUW, Microsoft텍스트, 이미지2023년 4월오픈소스 기반으로, GPT-4와 유사한 멀티모달 언어 모델을 개발하기 위해 공개됨.허니비(HoneyBee)카카오브레인텍스트, 이미지2023년 12월이미지와 텍스트를 모두 입력받아 처리할 수 있는 멀티모달 언어 모..
-
로컬 환경에서 LLM 파인튜닝하기
transformers/datasets library를 통해서 huggingface hub 에 등록된LLM 모델, 토크나이저 그리고 데이터셋을 손쉽게 다운 받을 수 있다. 하지만, huggingface 웹사이트 접근이 불가능한 경우엔 로컬 환경으로부터모델, 데이터 그리고 토크나이저를 로드해야 한다. 1. Hugging Face 접속 후 모델 다운로드HuggingFace에 접속하여 원하는 모델을 다운로드 받는다. Llama3.1-8B-Instruct 모델을 다운 받고 싶다면로그인 후 라이센스 서약서를 제출해야 한다. 몇 분 뒤에 접근 권한이 주어지고 아래와 같이 파일에 접근이 가능하다.모델)옆에 보이는 safetensors 파일은 LLM 모델 파일이며, model.safe_tensors.index.jso..
-
The Era of 1-bit LLMs:All Large Language Models are in 1.58 Bits
BitNet [WMD+23] 의 연구를 발전시킨 것으로 1-bit가 아닌 1.58bit으로 모델 경량화 진행.LLM의 모든 Weight를 1.58bit으로 변환하여 연산량을 줄임.대부분의 연산량 증가는 FP의 덧셈과 곱셈에서 기인함.In addition to computation, the process of transferring model parameters from DRAM to the memory of an on-chip accelerator (e.g., SRAM) can be expensive during inference. 1-bit LLMs have a much lower memory footprint from both a capacity and bandwidth standpoint. This..
-
MLP Can Be A Good Transformer Learner
MethodologySelf-attention 레이어를 이후에 등장하는 MLP 레이어에 통합하는 방법.Bottom-layer에 갈수록 Self-attention이 가지는 중요성이 떨어지기 때문에 이를 MLP 레이어와 합침으로써 연산량을 줄이고자 함.여러 개의 Self-attention 레이어 중에서 가장 정보 손실이 적은 레이어를 찾기 위해 Entropy 값의 변화량을 계산함 → Transfer Entropy(TE)⇒ 랜덤으로 선택하는 경우와 비교했을 때, Entropy 값을 계산하는 경우 ACC 감소가 적음. Attention 레이어에 M를 곱해주어 Attention 레이어를 Masking 함초기 값은 1이고 학습이 되면서 덜 중요한 레이어의 M은 0으로 변화함.Sparse Mask로 인해 발생하는 G..