@sitinme: 26M 参数的模型能做 Function Call,还比 Qwen-0.6B 强?这个团队反其道而行的思路太野了! 现在大模型的参数量越来越大,但有一个问题一直没有被认真对待过:调用一个工具真的需要几百亿参数吗? 想想看,当你说“查一下今…

X AI KOLs Timeline 模型

摘要

Cactus 团队将 Gemini 3.1 蒸馏为仅 26M 参数的专用模型 Needle,专门用于 Function Call,性能超过 Qwen-0.6B,展示了小模型在工具调用场景下的潜力。

26M 参数的模型能做 Function Call,还比 Qwen-0.6B 强?这个团队反其道而行的思路太野了! 现在大模型的参数量越来越大,但有一个问题一直没有被认真对待过:调用一个工具真的需要几百亿参数吗? 想想看,当你说“查一下今天北京的天气”,模型需要做的事情其实很简单:把你的话匹配到 get_weather 这个函数,把“北京”填到 location 参数里,这件事需要 GPT-5 级别的智能吗? 显然不需要,Cactus 团队的思路就是这么直接:既然 Function Call 本质上是一个“查询→工具匹配”的任务,那就可以用一个超小的专用模型来做。 他们把 Gemini 3.1 蒸馏成了一个只有 26M 参数的模型——叫 Needle。
查看原文
查看缓存全文

缓存时间: 2026/05/26 11:07

26M 参数的模型能做 Function Call,还比 Qwen-0.6B 强?这个团队反其道而行的思路太野了!

现在大模型的参数量越来越大,但有一个问题一直没有被认真对待过:调用一个工具真的需要几百亿参数吗?

想想看,当你说“查一下今天北京的天气”,模型需要做的事情其实很简单:把你的话匹配到 get_weather 这个函数,把“北京”填到 location 参数里,这件事需要 GPT-5 级别的智能吗?

显然不需要,Cactus 团队的思路就是这么直接:既然 Function Call 本质上是一个“查询→工具匹配”的任务,那就可以用一个超小的专用模型来做。

他们把 Gemini 3.1 蒸馏成了一个只有 26M 参数的模型——叫 Needle。

相似文章

@zhixianio: 这两天新机器到了之后,我开始了「苦行僧」式的强迫自己使用本地模型来完成常见任务的修行 本以为会非常痛苦,没想到无论是速度还是质量都大大超出我的预期: 模型: Qwen3.6-35B-A3B-oQ6-fp16-mtp 运行:oMLX,开 N…

X AI KOLs Timeline

作者在本地新机器上使用Qwen3.6-35B-A3B模型和oMLX工具进行日常任务,发现速度和效果远超预期,甚至在PA和Coding场景下优于远程LLM,体现了端侧AI能力的显著提升。