@xdotli: ICYMI Nanbeige 4.1,一个由中国Indeed发布的3B模型,性能优于Qwen3-30b-A3b + Qwen 3.5 4b。它可以完成长…
摘要
Nanbeige 4.1,一个来自中国Indeed的3B模型,在需要600+工具调用的任务上性能优于更大的Qwen模型。
查看缓存全文
缓存时间: 2026/06/20 14:38
别错过
中国Indeed发布的Nanbeige 4.1(3b模型)性能超过Qwen3-30b-A3b和Qwen 3.5 4b。它能通过600多次工具调用完成长周期任务。
我们正在做类似工作,考虑组织论文研读会。感兴趣请私信或评论。https://t.co/3VUoOTZvkI
相似文章
@xdotli: 我的朋友 @xeophon 认为编码问题已经解决了,这里有一个验证:一个3B模型接受了以算法效率为重点的训练……
Nanbeige 4.1,一个3B模型,在编码任务中专注于算法效率,超越了Qwen3-30b-A3b和Qwen 3.5 4b,实现了600多次工具调用的长时任务。
Qwen 3.6 35B A3B 的热度绝非虚名!
作者对小型本地 LLM 进行了基准测试,重点突出了 Qwen 3.6 35B A3B,其将学术代码与研究论文进行映射的能力优于 Gemma 4 和 Nemotron 3 Nano 等模型。
Qwen3.6-35B-A3B 和 9B 已正式登上公开的 Terminal-Bench 2.0 排行榜!
Qwen3.6-35B-A3B 和 Qwen3.5-9B 模型已正式登上 Terminal-Bench 2.0 排行榜,其中 little-coder 在 35B 变体上取得 24.6% 的成绩,超越了 Gemini 2.5 Pro 和 Qwen3-Coder-480B;而 9B 模型则表明,10B 以下的本地模型能够与高难度代理基准竞争。
@cjzafir:Qwen 3.5 4B 和 8B 模型太棒了。我今天微调了一个 4B 模型,在全精度和 Q8 量化版本上达到了 98% 的准确率…
一位开发者报告称,使用 Unsloth 微调 Qwen 3.5 4B 和 8B 模型后取得了高准确率,这表明业界正转向针对细分任务使用专用的专家语言模型(ELMs)。
Qwen 3.6 35B A3B 与 Qwen 3.5 122B A10B 对比
用户反馈,尽管基准测试表现亮眼,Qwen 3.5 122B 在多步任务上大幅领先 Qwen 3.6 35B,怀疑是量化或部署配置问题。