跳转至内容

Llama.cpp

来自 ArchWiki


C/C++ 中的 LLM 推理

安装

llama.cpp 可在 AUR 中获取

注意 确保您已安装适当的 Vulkan 驱动程序。

用法

主要执行器是 llama-clillama-server

llama-cli

llama-cli 是 CLI 执行器

$ llama-cli --help
$ llama-cli -m model.gguf

llama-server

llama-server 启动一个 HTTP 服务器

$ llama-server --help
$ llama-server -m model.gguf

获取模型

llama.cpp 使用 GGUF 格式的模型。

从 Hugging Face 下载

使用 -hf 标志从 Hugging Face 下载模型

$ llama-cli -hf org/model
警告 这可能会在没有提示的情况下覆盖现有模型文件。

手动下载

使用 wgetcurl 手动下载模型

$ wget -c model.gguf

模型量化

量化会降低模型精度以减少内存使用。

GGUF 模型使用后缀来指示量化级别。一般来说,较低的数字(Q4)占用内存较少,但与较高的数字(Q8)相比,质量可能会降低。

Unsloth 在 Hugging Face 上提供了多种量化模型。

KV 缓存量化

为了进一步提高内存效率,您可以对 KV(键值)缓存进行量化。

$ llama-cli -ctk q4_0 -ctv q4_0 -fa on -m model.gguf

这可以显著减少内存使用。

参见