Llama.cpp
外观
C/C++ 中的 LLM 推理
安装
llama.cpp 可在 AUR 中获取
- 安装 llama.cppAUR 用于 CPU 推理。
- 安装 llama.cpp-vulkanAUR 用于 GPU 推理。
注意 确保您已安装适当的 Vulkan 驱动程序。
用法
主要执行器是 llama-cli 和 llama-server。
llama-cli
llama-cli 是 CLI 执行器
$ llama-cli --help $ llama-cli -m model.gguf
llama-server
llama-server 启动一个 HTTP 服务器
$ llama-server --help $ llama-server -m model.gguf
获取模型
llama.cpp 使用 GGUF 格式的模型。
从 Hugging Face 下载
使用 -hf 标志从 Hugging Face 下载模型
$ llama-cli -hf org/model
警告 这可能会在没有提示的情况下覆盖现有模型文件。
手动下载
$ wget -c model.gguf
模型量化
量化会降低模型精度以减少内存使用。
GGUF 模型使用后缀来指示量化级别。一般来说,较低的数字(Q4)占用内存较少,但与较高的数字(Q8)相比,质量可能会降低。
Unsloth 在 Hugging Face 上提供了多种量化模型。
KV 缓存量化
为了进一步提高内存效率,您可以对 KV(键值)缓存进行量化。
$ llama-cli -ctk q4_0 -ctv q4_0 -fa on -m model.gguf
这可以显著减少内存使用。