标签
Rio 3.5 Open 397B 是一个开源的前沿AI模型,基于 Qwen 3.5 397B 进行后训练,采用 SwiReasoning 实现动态显式/隐式推理切换,在智能体编程、推理和多语言基准测试中取得了最先进的性能。
用户分享了一种在单台 DGX Spark 上使用 vLLM 运行 Qwen 3.5 122B Int4 的优化方案,实现了每秒超过 40 个 token 的速度。他们邀请其他人尝试并进一步优化。
个人基准测试显示,Qwen3.5-27B Dense 与 Gemma4-31B Dense 在 37 个失败用例中修复率 100%,即使 8-bit 量化的 Gemma4-26B MoE 也望尘莫及,同时消耗更少 token 与更短挂钟时间。
OpenInfer 展示“垂直拆解”,通过单节点 AMD EPYC CPU 与 Nvidia L40S GPU 协同执行量化层,并配合自定义 SLA 感知调度器,将 Qwen 3.5 27B 的吞吐量提升约 50%。