@no_stp_on_snek: 进行中

X AI KOLs Following 2026/05/23 18:35 工具

inference open-source benchmark qwen speed

摘要

推广 Atlas Inference，这是一个开源推理服务工具，在 Qwen3.6-35B-A3B 基准测试上实现了 200+ tok/s 的性能。

进行中 https://t.co/DFkWLU43lH

查看原文

查看缓存全文

缓存时间: 2026/05/24 08:18

进行中 https://t.co/DFkWLU43lH

Azeez (@AtlasInference): 试试 Atlas Inference。不到2分钟即可完成部署上线。
https://t.co/vxZLwBJMub ⚡️

开箱即用，与 sparkrun 配合良好。Docker 命令也都在网站上，欢迎索取。

开源项目，最新版本在 Qwen3.6-35B-A3B 基准测试中达到了 200+ tok/s 的成绩！

相似文章

@no_stp_on_snek: https://x.com/no_stp_on_snek/status/2052833502475833384

X AI KOLs Following

使用 Qwen2.5-32B-Instruct 搭配 longctx 和 vllm-turboquant 的单个 AMD MI300X 开源技术栈，在 MRCR v2 百万级上下文基准测试中取得了与 SubQ 闭源模型（0.659）相竞争的结果（0.601-0.688），表明开源权重方法已接近达到同等水平。

@bastani_behnam：我们刚刚发布了如何在 27B 模型上解锁 +50% 推理容量——无需新 GPU、无需新节点，成本仅为一小部分……

X AI KOLs Following

OpenInfer 展示“垂直拆解”，通过单节点 AMD EPYC CPU 与 Nvidia L40S GPU 协同执行量化层，并配合自定义 SLA 感知调度器，将 Qwen 3.5 27B 的吞吐量提升约 50%。

@no_stp_on_snek: 顺便说一下，这就是我的循环。如你所见，我并没有花太多心思在上面（还有拼写错误什么的），只是评估质量的一个附带任务……

X AI KOLs Following

发布 Qwopus3.6-27B-v2-MTP，这是一个基于 Qwen3.6-27B 微调的多 token 预测推理模型，针对编码、DevOps 和数学任务进行了优化，并提升了生成速度。

@no_stp_on_snek: http://LocalMaxxing.com 众多提交中的第一个。

X AI KOLs Following

LocalMaxxing 是一个提供本地 LLM 推理社区基准测试的网站，让用户能够追踪速度并比较硬件性能。

@zhyncs42: Qwen推理团队非常棒——他们在TokenSpeed上针对智能体工作负载实现了540 TPS，期待他们...

X AI KOLs Timeline

Qwen推理团队宣布了TokenSpeed，这是一个针对智能体工作负载的高性能LLM推理引擎，实现了540 TPS，并提供开源预览版。

提交意见反馈