상위 질문
타임라인
채팅
관점
Llama.cpp
위키백과, 무료 백과사전
Remove ads
llama.cpp는 LLaMA와 같은 다양한 대형 언어 모델에 대해 추론을 수행하는 오픈 소스 소프트웨어 라이브러리이다.[3] 범용 텐서 라이브러리인 GGML 프로젝트와 함께 공동 개발되었다.[4]
GGUF 파일 포맷
GGUF(GGML Universal File)[10] 파일 형식은 텐서와 메타데이터를 하나의 파일에 저장하는 바이너리 형식으로, 모델 데이터를 빠르게 저장하고 불러올 수 있도록 설계되었다.[11] 다른 모델 아키텍처에 대한 지원이 추가됨에 따라 이전 버전과의 호환성을 더 잘 유지하기 위해 2023년 8월 llama.cpp 프로젝트에서 도입되었다.[12][13] GGML과 같이 프로젝트에서 사용했던 이전 형식을 계승했다.
GGUF 파일은 일반적으로 PyTorch와 같은 다른 기계 학습 라이브러리로 개발된 모델을 변환하여 생성된다.[11]
Remove ads
지원 모델
- LLaMA
- LLaMA 2
- LLaMA 3
- Mistral 7B
- Mixtral 8x7B
- Mixtral 8x22B
- DBRX
- BERT
- GPT-2
- BLOOM
- Gemma
- Grok-1
- Mamba
- GPT-NeoX
- Flan T5
각주
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads