@stevibe: Qwen3.6 35B A3B 自己无法填写纸质表格,但配上 NVIDIA 的 LocateAnything-3B——HuggingFace 上排名第一的热门模型……
摘要
演示显示,Qwen3.6 35B A3B 结合 NVIDIA 的 LocateAnything-3B 作为视觉工具,能够通过检测字段位置准确填写纸质表格,证明小型模型可以通过协作完成单个大模型无法胜任的任务。
查看缓存全文
缓存时间: 2026/06/02 21:37
Qwen3.6 35B A3B 自己没法独立填写纸质表单。但给了它 NVIDIA 的 LocateAnything-3B(HuggingFace 上排名第一的热门模型)当眼睛后,两个小模型协作就搞定了。
(测试要求:把每个元素放到空白表单图片的正确像素位置,而不是往输入框里打字。)
配置:
Qwen 充当大脑(主模型),LocateAnything 充当眼睛(作为工具的辅助模型)。 我给 Qwen 加了新工具:问“邮箱字段在哪?“时,LocateAnything 返回精确的 x、y、宽度和高度。 屏幕上蓝色框就是它的检测结果。看这框有多精准——每个字段都准确命中。
结果:
Qwen3.6 35B A3B + LocateAnything-3B:表单填写完成,所有信息正确。 姓名、出生日期、身份证号、性别、婚姻状况、国籍、邮箱、电话、地址、邮政编码:全部落在正确的字段区域内。 字符与方框的对齐还有一点偏差,但每个值都放在了该在的位置。 耗时 9 分 10 秒,输入 224.5k,输出 24.3k,共 21 轮交互。
意义:
单独的 Qwen 无法完成这项测试。但加上一个只做一件事(定位)的 3B 模型后,就能做到了。 小模型组合可以完成单个大模型的工作。
LocateAnything-3B
保留了视觉能力,因为还需要截屏来验证结果。
实际上,我一开始用的是 9B 版本,但它的工具调用能力不太好,把数据放到字段上的推理也有些不准确,所以最终换成了 35B A3B。
我觉得它更稳定。35B A3B 有时还是会重复调用工具,但 27B 很稳定。唯一的问题是它在相同硬件上比 35B A3B 慢。
相似文章
@stevibe: 我进一步探索了本地模型的另一种可能性:将 Qwen3.6 35B A3B 与 NVIDIA LocateAnything-3B 结合,作为一个本地计算机使用代理…
演示了一个本地计算机使用代理,结合了 Qwen3.6 35B A3B 和 NVIDIA LocateAnything-3B 模型,通过截图执行切换 Mac 显示模式等任务,无需无障碍 API,完全在本地硬件上运行。
Qwen 3.6 35B A3B 的热度绝非虚名!
作者对小型本地 LLM 进行了基准测试,重点突出了 Qwen 3.6 35B A3B,其将学术代码与研究论文进行映射的能力优于 Gemma 4 和 Nemotron 3 Nano 等模型。
nvidia/Qwen3.6-35B-A3B-NVFP4 · Hugging Face
NVIDIA发布了Qwen3.6-35B-A3B-NVFP4,这是阿里巴巴混合专家多模态语言模型的量化版本,使用Model Optimizer优化以在NVIDIA GPU上部署。
Qwen3.6 35Ba3 已改变我的工作流程,甚至我使用电脑的方式
一位用户描述了 Qwen3.6 35B 如何结合 'pi' 工具,彻底改变了他们的计算机工作流程,实现了通过自然语言控制操作系统和自动化任务执行。他们完全在本地通过语音消息成功构建了一个落地页,展示了该模型的实用价值。
Wow!Qwen 3.6:35b-a3b 在 3090 上……太惊人了。
一位用户分享了在二手 RTX 3090 上运行量化版 Qwen 3.6:35b-a3b 模型的惊人结果:将模型放入显存后,输出速度达到每秒 160 个 token,并以 75 秒的视频处理时间展示了视觉能力。