J.V.

标签

站点统计

文章

43

运行时长

0 天

430 字

2 分钟

Linux环境下使用llama.cpp部署Qwen3.6-27B

2026-05-15

开发

AI

/

Linux

/

llama.cpp

准备#

一台配备 NVIDIA 显卡的 Linux 服务器
系统已安装 CUDA Toolkit（推荐 12.x 或以上）以及基础编译工具链（GCC、CMake、Make、Git）

下载与编译 llama.cpp#

1
# 克隆官方最新仓库
2
git clone https://github.com/ggml-org/llama.cpp
3
cd llama.cpp
4

5
# 使用 CMake 构建 CUDA 硬件加速版本
6
cmake -B build -DGGML_CUDA=ON
7
cmake --build build --config Release
8

9
# 创建软链接到根目录，方便后续命令行调用
10
ln -s build/bin/llama-server ./llama-server

准备 GGUF 模型#

在服务器上创建模型存放目录，并使用 ModelScope 镜像极速下载 Qwen3.6-27B-UD-Q8_K_XL.gguf 模型。

1
mkdir -p /workspace/models
2

3
# 从魔搭社区下载 GGUF 权重到指定目录
4
wget -P /workspace/models https://www.modelscope.cn/models/unsloth/Qwen3.6-27B-MTP-GGUF/resolve/master/Qwen3.6-27B-UD-Q8_K_XL.gguf

启动 API 服务#

在 llama.cpp 编译根目录下启动推理服务。

1
# 指定使用 0 号 GPU 启动服务
2
CUDA_VISIBLE_DEVICES=0 ./llama-server \
3
  -m /workspace/models/Qwen3.6-27B-UD-Q8_K_XL.gguf \
4
  -c 131072 \
5
  -ngl 99 \
6
  -fa on \
7
  -np 1 \
8
  --spec-type draft-mtp \
9
  --spec-draft-n-max 2 \
10
  --port 8080 \
11
  --host 0.0.0.0 \
12
  --alias qwen3.6 \
13
  --jinja \
14
  --chat-template-kwargs '{"preserve_thinking":true}' \
15
  --temp 0.6 \
16
  --top-k 20 \
17
  --top-p 0.95 \
18
  --min-p 0.0 \
19
  --presence-penalty 0.0 \
20
  --api-key sk-123456

关键参数解析：#

-c 131072: 将上下文窗口设置为 128k 长度。
-ngl 99: 将 99 层网络卸载到显卡执行，实现 CUDA 硬件全显存加速。
-fa on: 启用 Flash Attention，优化长上下文下的显存占用与吞吐速度。
--spec-type draft-mtp --spec-draft-n-max 2: 启用 MTP（多 Token 预测）推测解码，大幅提升生成速度。
--jinja --chat-template-kwargs '{"preserve_thinking":true}': 启用 Jinja 模板渲染，并保留模型思考链（Thinking）输出。
--api-key sk-123456: 开启 API 访问鉴权，指定 API Key 为 sk-123456。

验证#

在同一台服务器上，使用 curl 发送带有 API-Key 鉴权头的请求。

1
curl http://localhost:8080/v1/chat/completions \
2
  -H "Content-Type: application/json" \
3
  -H "Authorization: Bearer sk-123456" \
4
  -d '{
5
    "model": "qwen3.6",
6
    "messages": [
7
      {"role": "user", "content": "你好，请问你是谁？"}
8
    ]
9
  }'

参考资料#

Linux环境下使用llama.cpp部署Qwen3.6-27B

https://ruook.eu.org/20260515223009/

作者

J.V.

发布于

2026-05-15

许可协议

CC BY-SA 4.0

探索 OpenClaw：全能的智能体运行环境与配置全指南

J.V.'s Blog

准备#

下载与编译 llama.cpp#

准备 GGUF 模型#

启动 API 服务#

关键参数解析：#

验证#

参考资料#