@MiaAI_lab: Orinth-1.0-35b MoE 看起来比 Qwen 3.6 35b 好得多,特别是在 Terminal-Bench 2.1 和 SWE Atlas 上。
摘要
Orinth-1.0-35b MoE 在 Terminal-Bench 2.1 和 SWE Atlas 基准测试上优于 Qwen 3.6 35b。
查看缓存全文
缓存时间: 2026/06/26 12:11
Orinth-1.0-35b MoE 明显优于 Qwen 3.6 35b,尤其在 Terminal-Bench 2.1 和 SWE Atlas 上表现出色。https://t.co/dDt2GZjxuO
相似文章
@TeksEdge:经过一天的使用,测试 Orinth-1.0-35B 与 Qwen3.6-35B 的表现如何。凭经验来说,它的表现与……
一位用户报告称,Ornith-1.0-35B 在性能上与 Qwen3.6-35B 相当,但在规划和长任务执行方面更胜一筹,同时开发者宣布开源专门用于代理编码的 Ornith-1.0 系列 LLM。
Qwen3.6-35B-A3B 和 9B 已正式登上公开的 Terminal-Bench 2.0 排行榜!
Qwen3.6-35B-A3B 和 Qwen3.5-9B 模型已正式登上 Terminal-Bench 2.0 排行榜,其中 little-coder 在 35B 变体上取得 24.6% 的成绩,超越了 Gemini 2.5 Pro 和 Qwen3-Coder-480B;而 9B 模型则表明,10B 以下的本地模型能够与高难度代理基准竞争。
Qwen 3.6 35B A3B 的热度绝非虚名!
作者对小型本地 LLM 进行了基准测试,重点突出了 Qwen 3.6 35B A3B,其将学术代码与研究论文进行映射的能力优于 Gemma 4 和 Nemotron 3 Nano 等模型。
@MiaAI_lab: 如果你主要使用本地大模型进行Hermes风格的智能体循环,这可能会让你惊讶:Qwen 3.6 35B 实际上 *击败* 了 Dee…
根据MiaAI Lab的基准测试,Qwen 3.6 35B 在工具密集型和编码相关工作流上优于DeepSeek v4 Flash。
4x RTX 3090 上的 Qwen3.5-27B、Qwen3.5-122B 和 Qwen3.6-35B —— MoE 模型在严格全局规则下的表现困境
潜水多年的老用户,首次发帖。在 4 张 RTX 3090 上对三款 Qwen 模型分别进行了 20 多个会话的实时智能体工作测试——**Qwen3.5-27B** 稠密模型、**Qwen3.5-122B-A10B** MoE 和 **Qwen3.6-35B-A3B** MoE。以下数据均解析自持续真实负载下的 vLLM 日志,而非合成基准测试。**本文所有数据的关键负载背景:** 测试框架是一个多智能体编排器,同时运行 1-6 个并发的 OpenCode 会话,Prompt 长度为 30-60k token,并且强制执行**严格的 Bash 允许列表