@stevibe: Qwen3.6 35B A3B 自己无法填写纸质表格，但配上 NVIDIA 的 LocateAnything-3B——HuggingFace 上排名第一的热门模型……

X AI KOLs Timeline 2026/06/02 17:48 新闻

multi-model tool-use vision-language form-filling small-models nvidia qwen

摘要

演示显示，Qwen3.6 35B A3B 结合 NVIDIA 的 LocateAnything-3B 作为视觉工具，能够通过检测字段位置准确填写纸质表格，证明小型模型可以通过协作完成单个大模型无法胜任的任务。

Qwen3.6 35B A3B 自己无法填写纸质表格。但给它 NVIDIA 的 LocateAnything-3B（HuggingFace 上排名第一的热门模型）作为眼睛，这两个小模型就能共同完成。（测试要求：将每个元素放置在空白表单图像的正确像素位置，而不是输入到字段中。）设置： > Qwen 是大脑（主模型），LocateAnything 是眼睛（作为工具的辅助模型）。 > 我给 Qwen 增加了一个新工具：询问“电子邮件字段在哪？”，LocateAnything 就会返回精确的 x、y、宽度和高度。 > 屏幕上的蓝色框是它的检测结果。看它们有多精准——它准确命中了每个字段。结果： > Qwen3.6 35B A3B + LocateAnything-3B：表格已填写，所有信息正确。 > 姓名、出生日期、身份证号、性别、婚姻状况、国籍、电子邮件、电话、地址、邮政编码：全部落在了正确的字段区域。 > 字符与框的对齐仍然有点松，但每个值都位于正确位置。 > 耗时 9 分 10 秒，输入 224.5k，输出 24.3k，共 21 轮交互。为什么这很重要： > Qwen 单独无法完成这项测试。但加上一个 3B 模型——它只做一件事：定位——突然就能做到了。 > 多个小模型的组合可以完成单个大模型的工作。

查看原文

查看缓存全文

缓存时间: 2026/06/02 21:37

Qwen3.6 35B A3B 自己没法独立填写纸质表单。但给了它 NVIDIA 的 LocateAnything-3B（HuggingFace 上排名第一的热门模型）当眼睛后，两个小模型协作就搞定了。

（测试要求：把每个元素放到空白表单图片的正确像素位置，而不是往输入框里打字。）

配置：

Qwen 充当大脑（主模型），LocateAnything 充当眼睛（作为工具的辅助模型）。我给 Qwen 加了新工具：问“邮箱字段在哪？“时，LocateAnything 返回精确的 x、y、宽度和高度。屏幕上蓝色框就是它的检测结果。看这框有多精准——每个字段都准确命中。

结果：

Qwen3.6 35B A3B + LocateAnything-3B：表单填写完成，所有信息正确。姓名、出生日期、身份证号、性别、婚姻状况、国籍、邮箱、电话、地址、邮政编码：全部落在正确的字段区域内。字符与方框的对齐还有一点偏差，但每个值都放在了该在的位置。耗时 9 分 10 秒，输入 224.5k，输出 24.3k，共 21 轮交互。

意义：

单独的 Qwen 无法完成这项测试。但加上一个只做一件事（定位）的 3B 模型后，就能做到了。小模型组合可以完成单个大模型的工作。

LocateAnything-3B

保留了视觉能力，因为还需要截屏来验证结果。

实际上，我一开始用的是 9B 版本，但它的工具调用能力不太好，把数据放到字段上的推理也有些不准确，所以最终换成了 35B A3B。

我觉得它更稳定。35B A3B 有时还是会重复调用工具，但 27B 很稳定。唯一的问题是它在相同硬件上比 35B A3B 慢。

@stevibe: Qwen3.6 35B A3B 自己无法填写纸质表格，但配上 NVIDIA 的 LocateAnything-3B——HuggingFace 上排名第一的热门模型……

相似文章

@stevibe: 我进一步探索了本地模型的另一种可能性：将 Qwen3.6 35B A3B 与 NVIDIA LocateAnything-3B 结合，作为一个本地计算机使用代理…

Qwen 3.6 35B A3B 的热度绝非虚名！

nvidia/Qwen3.6-35B-A3B-NVFP4 · Hugging Face

Qwen3.6 35Ba3 已改变我的工作流程，甚至我使用电脑的方式

Wow！Qwen 3.6:35b-a3b 在 3090 上……太惊人了。

提交意见反馈