@xdotli: ICYMI Nanbeige 4.1，一个由中国Indeed发布的3B模型，性能优于Qwen3-30b-A3b + Qwen 3.5 4b。它可以完成长…

X AI KOLs Timeline 2026/06/20 00:58 模型

model-release small-model benchmark outperforms long-horizon tool-calls

摘要

Nanbeige 4.1，一个来自中国Indeed的3B模型，在需要600+工具调用的任务上性能优于更大的Qwen模型。

ICYMI Nanbeige 4.1，一个由中国Indeed发布的3B模型，性能优于Qwen3-30b-A3b + Qwen 3.5 4b。它可以完成需要600+工具调用的长周期任务。我们正在开发类似项目。考虑组织一次论文阅读会。有意者请私信或评论。https://t.co/3VUoOTZvkI

查看原文

查看缓存全文

缓存时间: 2026/06/20 14:38

别错过

中国Indeed发布的Nanbeige 4.1（3b模型）性能超过Qwen3-30b-A3b和Qwen 3.5 4b。它能通过600多次工具调用完成长周期任务。

我们正在做类似工作，考虑组织论文研读会。感兴趣请私信或评论。https://t.co/3VUoOTZvkI

相似文章

@xdotli: 我的朋友 @xeophon 认为编码问题已经解决了，这里有一个验证：一个3B模型接受了以算法效率为重点的训练……

X AI KOLs Timeline

Nanbeige 4.1，一个3B模型，在编码任务中专注于算法效率，超越了Qwen3-30b-A3b和Qwen 3.5 4b，实现了600多次工具调用的长时任务。

Qwen 3.6 35B A3B 的热度绝非虚名！

Reddit r/LocalLLaMA

作者对小型本地 LLM 进行了基准测试，重点突出了 Qwen 3.6 35B A3B，其将学术代码与研究论文进行映射的能力优于 Gemma 4 和 Nemotron 3 Nano 等模型。

Qwen3.6-35B-A3B 和 9B 已正式登上公开的 Terminal-Bench 2.0 排行榜！

Reddit r/LocalLLaMA

Qwen3.6-35B-A3B 和 Qwen3.5-9B 模型已正式登上 Terminal-Bench 2.0 排行榜，其中 little-coder 在 35B 变体上取得 24.6% 的成绩，超越了 Gemini 2.5 Pro 和 Qwen3-Coder-480B；而 9B 模型则表明，10B 以下的本地模型能够与高难度代理基准竞争。

@cjzafir：Qwen 3.5 4B 和 8B 模型太棒了。我今天微调了一个 4B 模型，在全精度和 Q8 量化版本上达到了 98% 的准确率…

X AI KOLs Timeline

一位开发者报告称，使用 Unsloth 微调 Qwen 3.5 4B 和 8B 模型后取得了高准确率，这表明业界正转向针对细分任务使用专用的专家语言模型（ELMs）。

Qwen 3.6 35B A3B 与 Qwen 3.5 122B A10B 对比

Reddit r/LocalLLaMA

用户反馈，尽管基准测试表现亮眼，Qwen 3.5 122B 在多步任务上大幅领先 Qwen 3.6 35B，怀疑是量化或部署配置问题。

相似文章

@xdotli: 我的朋友 @xeophon 认为编码问题已经解决了，这里有一个验证：一个3B模型接受了以算法效率为重点的训练……

Qwen 3.6 35B A3B 的热度绝非虚名！

Qwen3.6-35B-A3B 和 9B 已正式登上公开的 Terminal-Bench 2.0 排行榜！

@cjzafir：Qwen 3.5 4B 和 8B 模型太棒了。我今天微调了一个 4B 模型，在全精度和 Q8 量化版本上达到了 98% 的准确率…

Qwen 3.6 35B A3B 与 Qwen 3.5 122B A10B 对比

提交意见反馈