Llama.cpp

C/C++ 中的 LLM 推理

安装

llama.cpp 可在 AUR 中获取

注意确保您已安装适当的 Vulkan 驱动程序。

主要执行器是 llama-cli 和 llama-server。

llama-cli 是 CLI 执行器

$ llama-cli --help
$ llama-cli -m model.gguf

llama-server 启动一个 HTTP 服务器

$ llama-server --help
$ llama-server -m model.gguf

llama.cpp 使用 GGUF 格式的模型。

使用 -hf 标志从 Hugging Face 下载模型

$ llama-cli -hf org/model

警告这可能会在没有提示的情况下覆盖现有模型文件。

使用 wget 或 curl 手动下载模型

$ wget -c model.gguf

量化会降低模型精度以减少内存使用。

GGUF 模型使用后缀来指示量化级别。一般来说，较低的数字（Q4）占用内存较少，但与较高的数字（Q8）相比，质量可能会降低。

Unsloth 在 Hugging Face 上提供了多种量化模型。

为了进一步提高内存效率，您可以对 KV（键值）缓存进行量化。

$ llama-cli -ctk q4_0 -ctv q4_0 -fa on -m model.gguf

这可以显著减少内存使用。