club-5060ti: 实用的RTX 5060 Ti本地LLM笔记与配置
摘要
一个GitHub仓库,提供在双RTX 5060 Ti 16GB显卡上使用vLLM和llama.cpp运行本地LLM(如Qwen3.6 27B)的实用配置和基准测试。
查看缓存全文
缓存时间: 2026/05/15 02:56
5p00kyy/club-5060ti
来源:https://github.com/5p00kyy/club-5060ti
club-5060ti
适用于 RTX 5060 Ti 16GB 显卡的实用本地 LLM 配置。
本仓库收录了经过测试的 RTX 5060 Ti 本地 LLM 配置,包含命令、基准测试上下文以及可复现和对比结果所需的报告模板。
首个已记录的配置是一台双 RTX 5060 Ti 16GB 机器,通过两条工作路径运行 Qwen3.6 27B:
- vLLM:在 2x16GB 上使用兼容 Blackwell 的 NVFP4/MTP
- llama.cpp MTP GGUF:在 2x16GB 上运行
当前配置
| 运行时 | 模型 | 状态 | 备注 |
|---|---|---|---|
| vLLM | sakamakismile/Qwen3.6-27B-Text-NVFP4-MTP | 可用 | 双卡服务主路径。 |
| llama.cpp MTP 分支 | unsloth/Qwen3.6-27B-MTP-GGUF Q4/Q6 | 可用 | GGUF 路径,包含 Q4/Q6 速度说明、稳定路由预设及 Q6 长上下文适配检查。需要支持 MTP 的 llama.cpp 构建。 |
| llama.cpp / vLLM | Qwen3.6 35B A3B | 初步检查 | 小上下文 GGUF 冒烟结果及 vLLM NVFP4/MTP 启动示例。 |
测试基线
- GPU:2x NVIDIA GeForce RTX 5060 Ti 16GB
- 驱动:595.58.03
- 总显存:32GB(跨两张卡)
- 主机内存:60GB RAM
- CPU:16 vCPU 类 Linux 主机
- 常用假设:针对 27B 级模型使用张量并行跨双卡
详见 docs/hardware.md 获取完整基线和硬件说明。
仓库结构
- docs/FAQ.md - 常见问题的简短解答
- docs/community-goals.md - 项目目标与贡献优先级
- docs/client-examples.md - 连接兼容 OpenAI 的客户端
- docs/reporting-results.md - 如何生成有效的测试结果报告
- docs/vllm-qwen36.md - 可用的 vLLM NVFP4/MTP 配置
- docs/llamacpp-qwen36.md - 可用的 llama.cpp MTP GGUF 配置
- docs/qwen36-35b-a3b.md - 额外的 Qwen3.6 35B A3B 检查
- docs/benchmarks.md - 基准测试说明及当前结果表
- docs/troubleshooting.md - 测试中遇到的问题
- examples/ - 脱敏后的配置片段
- scripts/ - 可复现的健康/基准辅助小脚本
- data/community-results.csv - 社区结果表种子文件
模型下载
下载辅助脚本封装了 Hugging Face CLI,用于获取示例所需的模型文件:
scripts/download-models.sh qwen36-27b-vllm
scripts/download-models.sh qwen36-27b-gguf-q6
scripts/download-models.sh qwen36-35b-a3b-vllm
scripts/download-models.sh qwen36-35b-a3b-gguf
如果不希望将 GGUF 下载到 ~/models,请设置 MODEL_DIR 环境变量。
更新 llama.cpp
scripts/update-llama.sh
该脚本会使用 llama.cpp 示例所需的 CUDA/Blackwell 标记重新构建 llama.cpp。如果要备份并重新克隆现有源码树,请使用 –fresh 参数。
快速健康检查
在本地启动兼容 OpenAI 的端点后:
python3 scripts/openai_compat_smoke.py --base-url http://127.0.0.1:8000/v1 --model your-model-name
进行简单的解码速度检查:
python3 scripts/simple_decode_bench.py --base-url http://127.0.0.1:8000/v1 --model your-model-name --max-tokens 512
这些脚本只使用 Python 标准库。
分享结果
生成一份可直接粘贴的本地报告:
bash scripts/report.sh --url http://127.0.0.1:8000 --model your-model-name > my-5060ti-result.md
然后使用本仓库中的模板提交一个结果 issue。报告脚本不会包含 API 密钥和私有路径,但在公开发布前请检查输出内容。
范围
当前重点是在 2x RTX 5060 Ti 16GB 上实用地部署 Qwen3.6 27B,并在获得可复现证据后对相近模型进行额外检查。
贡献
最有用的贡献应包含确切的 GPU 型号、驱动/运行时版本、启动命令、上下文长度、KV 缓存设置、每秒 token 数以及相关说明。
请先阅读 CONTRIBUTING.md。
相似文章
RTX Pro 4500 Blackwell - Qwen 3.6 27B?
一位开发者分享了在搭载 NVIDIA RTX Pro 4500 Blackwell 显卡的服务器上,使用 llama.cpp 运行 Qwen3.6-27B 模型的本地推理基准测试数据及 systemd 配置。该帖文征集了提升吞吐量的优化建议,并探讨了更大模型的潜在应用场景。
Qwen3.6 27b / llama.cpp / opencode 最佳配置
社区讨论帖,分享在多 GPU 环境下运行 27B Qwen3.6 GGUF 模型、支持 100K-512K 长上下文的 llama.cpp 优化启动命令。
在单个16GB GPU + 64GB RAM上的本地LLM自动补全与代理式编码
使用 llama.cpp 在单块 16GB GPU 及 64GB+ 内存上设置本地 LLM 自动完成(Qwen2.5-Coder-7B)与代理编码(Qwen3.6-35B-A3B)的技术指南,包含命令与性能基准。
@Snixtp: 针对单张 RTX 3090 的更多能效测试 长文速读:- 我在单张 RTX 3090 上测试了 8 个本地大语言模型(LLM),功率限制从 100W 到 45…
本文展示了 8 个本地大语言模型在 RTX 3090 上的基准测试结果,显示功率能效在约 225W 时达到峰值,而在满功率下收益递减。
8GB 显存跑 Qwen3.6 35B MoE 的 llama-server 配置 + 我踩的 max_tokens / thinking 陷阱
作者分享了一套在 8GB RTX 4060 上跑 35B-MoE Qwen3.6 的可用 llama-server 配置,重点提示因内部推理无限制而耗尽 max_tokens 的陷阱,并给出用 per-request thinking_budget_tokens 的解决方案。