club-5060ti: 实用的RTX 5060 Ti本地LLM笔记与配置

Reddit r/LocalLLaMA 2026/05/15 02:07 工具

local-llm rtx-5060-ti vllm llama-cpp qwen nvidia llm-configuration

摘要

一个GitHub仓库，提供在双RTX 5060 Ti 16GB显卡上使用vLLM和llama.cpp运行本地LLM（如Qwen3.6 27B）的实用配置和基准测试。

我整理了一个小型的公开仓库，用于RTX 5060 Ti 16GB本地LLM设置：灵感来自club-3090仓库，但本仓库专注于记录我们在5060 Ti硬件上实际测试过的内容，以便更容易分享和复现设置细节。当前的基础配置是Linux上的2x RTX 5060 Ti 16GB，包含以下注意事项：\- 使用vLLM提供Qwen3.6 27B NVFP4/MTP服务 \- 使用llama.cpp MTP GGUF提供Qwen3.6 27B Q4/Q6服务 \- Q6长上下文适配检查，包括204800直接长上下文预设 \- 一个更安全的65536 llama.cpp路由预设，以提供额外余量 \- 在llama.cpp和vLLM上对Qwen3.6 35B A3B的初步检查 \- 清理后的启动示例 \- 模型下载和llama.cpp更新辅助脚本 \- 简单的OpenAI兼容冒烟/基准测试脚本 \- CSV种子结果和报告模板。目标是保持实用性：提供精确的配置、版本、上下文长度、KV设置和注意事项，而不是模糊的tokens/sec声明。如果有其他人正在测试类似的5060 Ti设置，欢迎提交issue或PR，并附带足够详细的信息以便复现结果。

查看原文

查看缓存全文

缓存时间: 2026/05/15 02:56

5p00kyy/club-5060ti

来源：https://github.com/5p00kyy/club-5060ti

club-5060ti

适用于 RTX 5060 Ti 16GB 显卡的实用本地 LLM 配置。

本仓库收录了经过测试的 RTX 5060 Ti 本地 LLM 配置，包含命令、基准测试上下文以及可复现和对比结果所需的报告模板。

首个已记录的配置是一台双 RTX 5060 Ti 16GB 机器，通过两条工作路径运行 Qwen3.6 27B：

vLLM：在 2x16GB 上使用兼容 Blackwell 的 NVFP4/MTP
llama.cpp MTP GGUF：在 2x16GB 上运行

当前配置

运行时	模型	状态	备注
vLLM	sakamakismile/Qwen3.6-27B-Text-NVFP4-MTP	可用	双卡服务主路径。
llama.cpp MTP 分支	unsloth/Qwen3.6-27B-MTP-GGUF Q4/Q6	可用	GGUF 路径，包含 Q4/Q6 速度说明、稳定路由预设及 Q6 长上下文适配检查。需要支持 MTP 的 llama.cpp 构建。
llama.cpp / vLLM	Qwen3.6 35B A3B	初步检查	小上下文 GGUF 冒烟结果及 vLLM NVFP4/MTP 启动示例。

测试基线

GPU：2x NVIDIA GeForce RTX 5060 Ti 16GB
驱动：595.58.03
总显存：32GB（跨两张卡）
主机内存：60GB RAM
CPU：16 vCPU 类 Linux 主机
常用假设：针对 27B 级模型使用张量并行跨双卡

详见 docs/hardware.md 获取完整基线和硬件说明。

仓库结构

docs/FAQ.md - 常见问题的简短解答
docs/community-goals.md - 项目目标与贡献优先级
docs/client-examples.md - 连接兼容 OpenAI 的客户端
docs/reporting-results.md - 如何生成有效的测试结果报告
docs/vllm-qwen36.md - 可用的 vLLM NVFP4/MTP 配置
docs/llamacpp-qwen36.md - 可用的 llama.cpp MTP GGUF 配置
docs/qwen36-35b-a3b.md - 额外的 Qwen3.6 35B A3B 检查
docs/benchmarks.md - 基准测试说明及当前结果表
docs/troubleshooting.md - 测试中遇到的问题
examples/ - 脱敏后的配置片段
scripts/ - 可复现的健康/基准辅助小脚本
data/community-results.csv - 社区结果表种子文件

模型下载

下载辅助脚本封装了 Hugging Face CLI，用于获取示例所需的模型文件：

scripts/download-models.sh qwen36-27b-vllm
scripts/download-models.sh qwen36-27b-gguf-q6
scripts/download-models.sh qwen36-35b-a3b-vllm
scripts/download-models.sh qwen36-35b-a3b-gguf

如果不希望将 GGUF 下载到 ~/models，请设置 MODEL_DIR 环境变量。

更新 llama.cpp

scripts/update-llama.sh

该脚本会使用 llama.cpp 示例所需的 CUDA/Blackwell 标记重新构建 llama.cpp。如果要备份并重新克隆现有源码树，请使用 –fresh 参数。

快速健康检查

在本地启动兼容 OpenAI 的端点后：

python3 scripts/openai_compat_smoke.py --base-url http://127.0.0.1:8000/v1 --model your-model-name

进行简单的解码速度检查：

python3 scripts/simple_decode_bench.py --base-url http://127.0.0.1:8000/v1 --model your-model-name --max-tokens 512

这些脚本只使用 Python 标准库。

分享结果

生成一份可直接粘贴的本地报告：

bash scripts/report.sh --url http://127.0.0.1:8000 --model your-model-name > my-5060ti-result.md

然后使用本仓库中的模板提交一个结果 issue。报告脚本不会包含 API 密钥和私有路径，但在公开发布前请检查输出内容。

范围

当前重点是在 2x RTX 5060 Ti 16GB 上实用地部署 Qwen3.6 27B，并在获得可复现证据后对相近模型进行额外检查。

贡献

最有用的贡献应包含确切的 GPU 型号、驱动/运行时版本、启动命令、上下文长度、KV 缓存设置、每秒 token 数以及相关说明。

请先阅读 CONTRIBUTING.md。

club-5060ti: 实用的RTX 5060 Ti本地LLM笔记与配置

5p00kyy/club-5060ti

club-5060ti

当前配置

测试基线

仓库结构

模型下载

更新 llama.cpp

快速健康检查

分享结果

范围

贡献

相似文章

RTX Pro 4500 Blackwell - Qwen 3.6 27B？

Qwen3.6 27b / llama.cpp / opencode 最佳配置

在单个16GB GPU + 64GB RAM上的本地LLM自动补全与代理式编码

@Snixtp: 针对单张 RTX 3090 的更多能效测试长文速读：- 我在单张 RTX 3090 上测试了 8 个本地大语言模型（LLM），功率限制从 100W 到 45…

8GB 显存跑 Qwen3.6 35B MoE 的 llama-server 配置 + 我踩的 max_tokens / thinking 陷阱

提交意见反馈

5p00kyy/club-5060ti

club-5060ti

当前配置

测试基线

仓库结构

模型下载

更新 llama.cpp

快速健康检查

分享结果

范围

贡献

相似文章

RTX Pro 4500 Blackwell - Qwen 3.6 27B？

Qwen3.6 27b / llama.cpp / opencode 最佳配置

在单个16GB GPU + 64GB RAM上的本地LLM自动补全与代理式编码

@Snixtp: 针对单张 RTX 3090 的更多能效测试 长文速读：- 我在单张 RTX 3090 上测试了 8 个本地大语言模型（LLM），功率限制从 100W 到 45…

8GB 显存跑 Qwen3.6 35B MoE 的 llama-server 配置 + 我踩的 max_tokens / thinking 陷阱

提交意见反馈

@Snixtp: 针对单张 RTX 3090 的更多能效测试长文速读：- 我在单张 RTX 3090 上测试了 8 个本地大语言模型（LLM），功率限制从 100W 到 45…