@stevibe: Qwen3.6 35B A3B 自己无法填写纸质表格,但配上 NVIDIA 的 LocateAnything-3B——HuggingFace 上排名第一的热门模型……

X AI KOLs Timeline 新闻

摘要

演示显示,Qwen3.6 35B A3B 结合 NVIDIA 的 LocateAnything-3B 作为视觉工具,能够通过检测字段位置准确填写纸质表格,证明小型模型可以通过协作完成单个大模型无法胜任的任务。

Qwen3.6 35B A3B 自己无法填写纸质表格。但给它 NVIDIA 的 LocateAnything-3B(HuggingFace 上排名第一的热门模型)作为眼睛,这两个小模型就能共同完成。 (测试要求:将每个元素放置在空白表单图像的正确像素位置,而不是输入到字段中。) 设置: > Qwen 是大脑(主模型),LocateAnything 是眼睛(作为工具的辅助模型)。 > 我给 Qwen 增加了一个新工具:询问“电子邮件字段在哪?”,LocateAnything 就会返回精确的 x、y、宽度和高度。 > 屏幕上的蓝色框是它的检测结果。看它们有多精准——它准确命中了每个字段。 结果: > Qwen3.6 35B A3B + LocateAnything-3B:表格已填写,所有信息正确。 > 姓名、出生日期、身份证号、性别、婚姻状况、国籍、电子邮件、电话、地址、邮政编码:全部落在了正确的字段区域。 > 字符与框的对齐仍然有点松,但每个值都位于正确位置。 > 耗时 9 分 10 秒,输入 224.5k,输出 24.3k,共 21 轮交互。 为什么这很重要: > Qwen 单独无法完成这项测试。但加上一个 3B 模型——它只做一件事:定位——突然就能做到了。 > 多个小模型的组合可以完成单个大模型的工作。
查看原文
查看缓存全文

缓存时间: 2026/06/02 21:37

Qwen3.6 35B A3B 自己没法独立填写纸质表单。但给了它 NVIDIA 的 LocateAnything-3B(HuggingFace 上排名第一的热门模型)当眼睛后,两个小模型协作就搞定了。

(测试要求:把每个元素放到空白表单图片的正确像素位置,而不是往输入框里打字。)

配置:

Qwen 充当大脑(主模型),LocateAnything 充当眼睛(作为工具的辅助模型)。 我给 Qwen 加了新工具:问“邮箱字段在哪?“时,LocateAnything 返回精确的 x、y、宽度和高度。 屏幕上蓝色框就是它的检测结果。看这框有多精准——每个字段都准确命中。

结果:

Qwen3.6 35B A3B + LocateAnything-3B:表单填写完成,所有信息正确。 姓名、出生日期、身份证号、性别、婚姻状况、国籍、邮箱、电话、地址、邮政编码:全部落在正确的字段区域内。 字符与方框的对齐还有一点偏差,但每个值都放在了该在的位置。 耗时 9 分 10 秒,输入 224.5k,输出 24.3k,共 21 轮交互。

意义:

单独的 Qwen 无法完成这项测试。但加上一个只做一件事(定位)的 3B 模型后,就能做到了。 小模型组合可以完成单个大模型的工作。

LocateAnything-3B

保留了视觉能力,因为还需要截屏来验证结果。

实际上,我一开始用的是 9B 版本,但它的工具调用能力不太好,把数据放到字段上的推理也有些不准确,所以最终换成了 35B A3B。

我觉得它更稳定。35B A3B 有时还是会重复调用工具,但 27B 很稳定。唯一的问题是它在相同硬件上比 35B A3B 慢。

相似文章

Qwen 3.6 35B A3B 的热度绝非虚名!

Reddit r/LocalLLaMA

作者对小型本地 LLM 进行了基准测试,重点突出了 Qwen 3.6 35B A3B,其将学术代码与研究论文进行映射的能力优于 Gemma 4 和 Nemotron 3 Nano 等模型。

nvidia/Qwen3.6-35B-A3B-NVFP4 · Hugging Face

Reddit r/LocalLLaMA

NVIDIA发布了Qwen3.6-35B-A3B-NVFP4,这是阿里巴巴混合专家多模态语言模型的量化版本,使用Model Optimizer优化以在NVIDIA GPU上部署。

Qwen3.6 35Ba3 已改变我的工作流程,甚至我使用电脑的方式

Reddit r/LocalLLaMA

一位用户描述了 Qwen3.6 35B 如何结合 'pi' 工具,彻底改变了他们的计算机工作流程,实现了通过自然语言控制操作系统和自动化任务执行。他们完全在本地通过语音消息成功构建了一个落地页,展示了该模型的实用价值。

Wow!Qwen 3.6:35b-a3b 在 3090 上……太惊人了。

Reddit r/artificial

一位用户分享了在二手 RTX 3090 上运行量化版 Qwen 3.6:35b-a3b 模型的惊人结果:将模型放入显存后,输出速度达到每秒 160 个 token,并以 75 秒的视频处理时间展示了视觉能力。