club-5060ti: 实用的RTX 5060 Ti本地LLM笔记与配置

Reddit r/LocalLLaMA 工具

摘要

一个GitHub仓库,提供在双RTX 5060 Ti 16GB显卡上使用vLLM和llama.cpp运行本地LLM(如Qwen3.6 27B)的实用配置和基准测试。

我整理了一个小型的公开仓库,用于RTX 5060 Ti 16GB本地LLM设置:灵感来自club-3090仓库,但本仓库专注于记录我们在5060 Ti硬件上实际测试过的内容,以便更容易分享和复现设置细节。当前的基础配置是Linux上的2x RTX 5060 Ti 16GB,包含以下注意事项:\- 使用vLLM提供Qwen3.6 27B NVFP4/MTP服务 \- 使用llama.cpp MTP GGUF提供Qwen3.6 27B Q4/Q6服务 \- Q6长上下文适配检查,包括204800直接长上下文预设 \- 一个更安全的65536 llama.cpp路由预设,以提供额外余量 \- 在llama.cpp和vLLM上对Qwen3.6 35B A3B的初步检查 \- 清理后的启动示例 \- 模型下载和llama.cpp更新辅助脚本 \- 简单的OpenAI兼容冒烟/基准测试脚本 \- CSV种子结果和报告模板。目标是保持实用性:提供精确的配置、版本、上下文长度、KV设置和注意事项,而不是模糊的tokens/sec声明。如果有其他人正在测试类似的5060 Ti设置,欢迎提交issue或PR,并附带足够详细的信息以便复现结果。
查看原文
查看缓存全文

缓存时间: 2026/05/15 02:56

5p00kyy/club-5060ti

来源:https://github.com/5p00kyy/club-5060ti

club-5060ti

适用于 RTX 5060 Ti 16GB 显卡的实用本地 LLM 配置。

本仓库收录了经过测试的 RTX 5060 Ti 本地 LLM 配置,包含命令、基准测试上下文以及可复现和对比结果所需的报告模板。

首个已记录的配置是一台双 RTX 5060 Ti 16GB 机器,通过两条工作路径运行 Qwen3.6 27B:

  • vLLM:在 2x16GB 上使用兼容 Blackwell 的 NVFP4/MTP
  • llama.cpp MTP GGUF:在 2x16GB 上运行

当前配置

运行时模型状态备注
vLLMsakamakismile/Qwen3.6-27B-Text-NVFP4-MTP可用双卡服务主路径。
llama.cpp MTP 分支unsloth/Qwen3.6-27B-MTP-GGUF Q4/Q6可用GGUF 路径,包含 Q4/Q6 速度说明、稳定路由预设及 Q6 长上下文适配检查。需要支持 MTP 的 llama.cpp 构建。
llama.cpp / vLLMQwen3.6 35B A3B初步检查小上下文 GGUF 冒烟结果及 vLLM NVFP4/MTP 启动示例。

测试基线

  • GPU:2x NVIDIA GeForce RTX 5060 Ti 16GB
  • 驱动:595.58.03
  • 总显存:32GB(跨两张卡)
  • 主机内存:60GB RAM
  • CPU:16 vCPU 类 Linux 主机
  • 常用假设:针对 27B 级模型使用张量并行跨双卡

详见 docs/hardware.md 获取完整基线和硬件说明。

仓库结构

  • docs/FAQ.md - 常见问题的简短解答
  • docs/community-goals.md - 项目目标与贡献优先级
  • docs/client-examples.md - 连接兼容 OpenAI 的客户端
  • docs/reporting-results.md - 如何生成有效的测试结果报告
  • docs/vllm-qwen36.md - 可用的 vLLM NVFP4/MTP 配置
  • docs/llamacpp-qwen36.md - 可用的 llama.cpp MTP GGUF 配置
  • docs/qwen36-35b-a3b.md - 额外的 Qwen3.6 35B A3B 检查
  • docs/benchmarks.md - 基准测试说明及当前结果表
  • docs/troubleshooting.md - 测试中遇到的问题
  • examples/ - 脱敏后的配置片段
  • scripts/ - 可复现的健康/基准辅助小脚本
  • data/community-results.csv - 社区结果表种子文件

模型下载

下载辅助脚本封装了 Hugging Face CLI,用于获取示例所需的模型文件:

scripts/download-models.sh qwen36-27b-vllm
scripts/download-models.sh qwen36-27b-gguf-q6
scripts/download-models.sh qwen36-35b-a3b-vllm
scripts/download-models.sh qwen36-35b-a3b-gguf

如果不希望将 GGUF 下载到 ~/models,请设置 MODEL_DIR 环境变量。

更新 llama.cpp

scripts/update-llama.sh

该脚本会使用 llama.cpp 示例所需的 CUDA/Blackwell 标记重新构建 llama.cpp。如果要备份并重新克隆现有源码树,请使用 –fresh 参数。

快速健康检查

在本地启动兼容 OpenAI 的端点后:

python3 scripts/openai_compat_smoke.py --base-url http://127.0.0.1:8000/v1 --model your-model-name

进行简单的解码速度检查:

python3 scripts/simple_decode_bench.py --base-url http://127.0.0.1:8000/v1 --model your-model-name --max-tokens 512

这些脚本只使用 Python 标准库。

分享结果

生成一份可直接粘贴的本地报告:

bash scripts/report.sh --url http://127.0.0.1:8000 --model your-model-name > my-5060ti-result.md

然后使用本仓库中的模板提交一个结果 issue。报告脚本不会包含 API 密钥和私有路径,但在公开发布前请检查输出内容。

范围

当前重点是在 2x RTX 5060 Ti 16GB 上实用地部署 Qwen3.6 27B,并在获得可复现证据后对相近模型进行额外检查。

贡献

最有用的贡献应包含确切的 GPU 型号、驱动/运行时版本、启动命令、上下文长度、KV 缓存设置、每秒 token 数以及相关说明。

请先阅读 CONTRIBUTING.md。

相似文章

RTX Pro 4500 Blackwell - Qwen 3.6 27B?

Reddit r/LocalLLaMA

一位开发者分享了在搭载 NVIDIA RTX Pro 4500 Blackwell 显卡的服务器上,使用 llama.cpp 运行 Qwen3.6-27B 模型的本地推理基准测试数据及 systemd 配置。该帖文征集了提升吞吐量的优化建议,并探讨了更大模型的潜在应用场景。