标签
Yannick Nick 演示了如何使用 KTransformers 在 2 块 RTX Pro 6000 GPU 上以原生 FP4+FP8 精度运行 DeepSeek V4 Flash,从而在资源受限的系统上实现高效推理。
用户报告成功使用 ktransformers 在本地运行 DeepSeek V4 Pro 模型,并分享了在不同上下文深度下的详细基准测试结果,展示了改进的推理速度。