club-5060ti: 实用的RTX 5060 Ti本地LLM笔记与配置
摘要
一个GitHub仓库,提供在双RTX 5060 Ti 16GB显卡上使用vLLM和llama.cpp运行本地LLM(如Qwen3.6 27B)的实用配置和基准测试。
查看缓存全文
缓存时间: 2026/05/15 02:56
5p00kyy/club-5060ti
来源:https://github.com/5p00kyy/club-5060ti
club-5060ti
适用于 RTX 5060 Ti 16GB 显卡的实用本地 LLM 配置。
本仓库收录了经过测试的 RTX 5060 Ti 本地 LLM 配置,包含命令、基准测试上下文以及可复现和对比结果所需的报告模板。
首个已记录的配置是一台双 RTX 5060 Ti 16GB 机器,通过两条工作路径运行 Qwen3.6 27B:
- vLLM:在 2x16GB 上使用兼容 Blackwell 的 NVFP4/MTP
- llama.cpp MTP GGUF:在 2x16GB 上运行
当前配置
| 运行时 | 模型 | 状态 | 备注 |
|---|---|---|---|
| vLLM | sakamakismile/Qwen3.6-27B-Text-NVFP4-MTP | 可用 | 双卡服务主路径。 |
| llama.cpp MTP 分支 | unsloth/Qwen3.6-27B-MTP-GGUF Q4/Q6 | 可用 | GGUF 路径,包含 Q4/Q6 速度说明、稳定路由预设及 Q6 长上下文适配检查。需要支持 MTP 的 llama.cpp 构建。 |
| llama.cpp / vLLM | Qwen3.6 35B A3B | 初步检查 | 小上下文 GGUF 冒烟结果及 vLLM NVFP4/MTP 启动示例。 |
测试基线
- GPU:2x NVIDIA GeForce RTX 5060 Ti 16GB
- 驱动:595.58.03
- 总显存:32GB(跨两张卡)
- 主机内存:60GB RAM
- CPU:16 vCPU 类 Linux 主机
- 常用假设:针对 27B 级模型使用张量并行跨双卡
详见 docs/hardware.md 获取完整基线和硬件说明。
仓库结构
- docs/FAQ.md - 常见问题的简短解答
- docs/community-goals.md - 项目目标与贡献优先级
- docs/client-examples.md - 连接兼容 OpenAI 的客户端
- docs/reporting-results.md - 如何生成有效的测试结果报告
- docs/vllm-qwen36.md - 可用的 vLLM NVFP4/MTP 配置
- docs/llamacpp-qwen36.md - 可用的 llama.cpp MTP GGUF 配置
- docs/qwen36-35b-a3b.md - 额外的 Qwen3.6 35B A3B 检查
- docs/benchmarks.md - 基准测试说明及当前结果表
- docs/troubleshooting.md - 测试中遇到的问题
- examples/ - 脱敏后的配置片段
- scripts/ - 可复现的健康/基准辅助小脚本
- data/community-results.csv - 社区结果表种子文件
模型下载
下载辅助脚本封装了 Hugging Face CLI,用于获取示例所需的模型文件:
scripts/download-models.sh qwen36-27b-vllm
scripts/download-models.sh qwen36-27b-gguf-q6
scripts/download-models.sh qwen36-35b-a3b-vllm
scripts/download-models.sh qwen36-35b-a3b-gguf
如果不希望将 GGUF 下载到 ~/models,请设置 MODEL_DIR 环境变量。
更新 llama.cpp
scripts/update-llama.sh
该脚本会使用 llama.cpp 示例所需的 CUDA/Blackwell 标记重新构建 llama.cpp。如果要备份并重新克隆现有源码树,请使用 –fresh 参数。
快速健康检查
在本地启动兼容 OpenAI 的端点后:
python3 scripts/openai_compat_smoke.py --base-url http://127.0.0.1:8000/v1 --model your-model-name
进行简单的解码速度检查:
python3 scripts/simple_decode_bench.py --base-url http://127.0.0.1:8000/v1 --model your-model-name --max-tokens 512
这些脚本只使用 Python 标准库。
分享结果
生成一份可直接粘贴的本地报告:
bash scripts/report.sh --url http://127.0.0.1:8000 --model your-model-name > my-5060ti-result.md
然后使用本仓库中的模板提交一个结果 issue。报告脚本不会包含 API 密钥和私有路径,但在公开发布前请检查输出内容。
范围
当前重点是在 2x RTX 5060 Ti 16GB 上实用地部署 Qwen3.6 27B,并在获得可复现证据后对相近模型进行额外检查。
贡献
最有用的贡献应包含确切的 GPU 型号、驱动/运行时版本、启动命令、上下文长度、KV 缓存设置、每秒 token 数以及相关说明。
请先阅读 CONTRIBUTING.md。
相似文章
@leopardracer: https://x.com/leopardracer/status/2055341758523883631
一位用户分享了他们搭建双GPU本地AI实验室的经验,使用了RTX 4080 Super和5060 Ti,通过llama.cpp和llama-swap运行Qwen 3.6模型,以降低API成本并实现无限制的实验。
club-rdna16:实用的16GB AMD/Radeon本地LLM测试仓库
该仓库提供了在16GB AMD Radeon GPU上使用基于ROCm/HIP的llama.cpp运行本地大语言模型(LLM)的实用测试配置和基准测试,重点关注上下文长度、KV缓存设置等真实性能指标。
48GB VRAM + Qwen 3.6 27B 的最佳设置
一位用户分享了在双GPU配置(RTX 4090 + RTX 3090)上使用llama.cpp运行Qwen3.6 27B (Q8_0)的优化设置,在250k上下文下实现了75-100 t/s和1500 pp。
在6GB RTX 4050上对20个小LLM的基准测试
对20个为6GB GPU量化的小LLM的详细基准测试,测量了不同上下文长度下的速度和VRAM使用情况,并对工具使用和指令遵循进行了定性探针。该报告旨在帮助拥有中等硬件的用户为本地私有的自动化任务选择模型。
RTX Pro 4500 Blackwell - Qwen 3.6 27B?
一位开发者分享了在搭载 NVIDIA RTX Pro 4500 Blackwell 显卡的服务器上,使用 llama.cpp 运行 Qwen3.6-27B 模型的本地推理基准测试数据及 systemd 配置。该帖文征集了提升吞吐量的优化建议,并探讨了更大模型的潜在应用场景。