@no_stp_on_snek: 进行中
摘要
推广 Atlas Inference,这是一个开源推理服务工具,在 Qwen3.6-35B-A3B 基准测试上实现了 200+ tok/s 的性能。
查看缓存全文
缓存时间: 2026/05/24 08:18
进行中 https://t.co/DFkWLU43lH
Azeez (@AtlasInference): 试试 Atlas Inference。不到2分钟即可完成部署上线。
https://t.co/vxZLwBJMub ⚡️开箱即用,与 sparkrun 配合良好。Docker 命令也都在网站上,欢迎索取。
开源项目,最新版本在 Qwen3.6-35B-A3B 基准测试中达到了 200+ tok/s 的成绩!
相似文章
@no_stp_on_snek: https://x.com/no_stp_on_snek/status/2052833502475833384
使用 Qwen2.5-32B-Instruct 搭配 longctx 和 vllm-turboquant 的单个 AMD MI300X 开源技术栈,在 MRCR v2 百万级上下文基准测试中取得了与 SubQ 闭源模型(0.659)相竞争的结果(0.601-0.688),表明开源权重方法已接近达到同等水平。
@bastani_behnam:我们刚刚发布了如何在 27B 模型上解锁 +50% 推理容量——无需新 GPU、无需新节点,成本仅为一小部分……
OpenInfer 展示“垂直拆解”,通过单节点 AMD EPYC CPU 与 Nvidia L40S GPU 协同执行量化层,并配合自定义 SLA 感知调度器,将 Qwen 3.5 27B 的吞吐量提升约 50%。
@no_stp_on_snek: 顺便说一下,这就是我的循环。如你所见,我并没有花太多心思在上面(还有拼写错误什么的),只是评估质量的一个附带任务……
发布 Qwopus3.6-27B-v2-MTP,这是一个基于 Qwen3.6-27B 微调的多 token 预测推理模型,针对编码、DevOps 和数学任务进行了优化,并提升了生成速度。
@no_stp_on_snek: http://LocalMaxxing.com 众多提交中的第一个。
LocalMaxxing 是一个提供本地 LLM 推理社区基准测试的网站,让用户能够追踪速度并比较硬件性能。
@zhyncs42: Qwen推理团队非常棒——他们在TokenSpeed上针对智能体工作负载实现了540 TPS,期待他们...
Qwen推理团队宣布了TokenSpeed,这是一个针对智能体工作负载的高性能LLM推理引擎,实现了540 TPS,并提供开源预览版。