@ms_aifrontiers: Fara1.5 来了!技术报告刚刚发表在 arXiv 上。在其尺寸的电脑使用代理中达到新 SOTA,并与更大的前沿模型竞争…
摘要
Fara1.5 是一系列原生的电脑使用代理,使用 FaraGen1.5 可扩展数据管道进行训练。这些模型在浏览器使用基准测试中取得了新的最优结果,与更大的前沿模型竞争。
查看缓存全文
缓存时间: 2026/06/25 09:16
Fara1.5 来了!
技术报告刚刚发布在 arXiv 上。在同尺寸计算机使用智能体中达到新的 SOTA,并能与更大的前沿模型竞争。
论文:https://t.co/BkhgwNuxiq
Fara-1.5:面向计算机使用智能体的可扩展学习环境
来源:https://arxiv.org/abs/2606.20785 作者:Ahmed Awadallah (https://arxiv.org/search/cs?searchtype=author&query=Awadallah,+A), Sahil Gupta (https://arxiv.org/search/cs?searchtype=author&query=Gupta,+S), Yash Lara (https://arxiv.org/search/cs?searchtype=author&query=Lara,+Y), Yadong Lu (https://arxiv.org/search/cs?searchtype=author&query=Lu,+Y), Hussein Mozannar (https://arxiv.org/search/cs?searchtype=author&query=Mozannar,+H), Akshay Nambi (https://arxiv.org/search/cs?searchtype=author&query=Nambi,+A), Zach Nussbaum (https://arxiv.org/search/cs?searchtype=author&query=Nussbaum,+Z), Yash Pandya (https://arxiv.org/search/cs?searchtype=author&query=Pandya,+Y), Aravind Rajeswaran (https://arxiv.org/search/cs?searchtype=author&query=Rajeswaran,+A), Corby Rosset (https://arxiv.org/search/cs?searchtype=author&query=Rosset,+C), Alexey Taymanov (https://arxiv.org/search/cs?searchtype=author&query=Taymanov,+A), Luiz do Valle (https://arxiv.org/search/cs?searchtype=author&query=Valle,+L+d), Vibhav Vineet (https://arxiv.org/search/cs?searchtype=author&query=Vineet,+V), Spencer Whitehead (https://arxiv.org/search/cs?searchtype=author&query=Whitehead,+S), Andrew Zhao (https://arxiv.org/search/cs?searchtype=author&query=Zhao,+A)
查看 PDF (https://arxiv.org/pdf/2606.20785)
摘要:从人类演示中收集计算机使用数据既昂贵又缓慢,因此需要可扩展的生成策略。这需要两个关键要素:智能体可以行动的环境,以及能够判断其演示是否成功的验证器。我们提出了 FaraGen1.5,一个面向计算机使用智能体的可扩展数据流水线,由三个模块化组件构成:环境、求解器和验证器。FaraGen1.5 既使用实时网站,也使用能忠实地模拟需认证或需执行不可逆操作领域的合成环境。它采用可由多个模型驱动的求解器框架(包括像 GPT-5.4 这样的强前沿模型),并整合了一个用户模拟器以实现多轮交互展开。最后,FaraGen1.5 使用三个互补的验证器对生成的轨迹进行评分,覆盖任务正确性、效率和关键点遵循。利用该流水线产出的数据,我们训练了 Fara1.5 系列,这是一个基于 Qwen3.5(4B、9B 和 27B)构建的本机计算机使用智能体(CUA)家族,包含三个规模。为了训练这些模型,我们采用了一种监督微调(SFT)方案,该方案精心平衡了来自 FaraGen1.5 的数据,以迭代方式确保广泛覆盖、特定高价值任务以及目标模型的不足之处。每个模型都为其规模级别在浏览器使用基准上设立了新的最佳水平:Fara1.5-9B 在 Online-Mind2Web 上达到 63.4%,在 WebVoyager 上达到 86.6%;而 Fara1.5-27B 在 Online-Mind2Web 上达到 72.3%,与规模大得多的专有系统具有竞争力。
提交历史
来自:Aravind Rajeswaran [查看邮件 (https://arxiv.org/show-email/3feb96ac/2606.20785)] [v1] 2026年6月18日星期四 17:53:03 UTC(12,657 KB)
相似文章
@ms_aifrontiers: 与MagenticLite一起,我们推出了Fara1.5:一系列小型浏览器代理,参数规模分别为4B、9B和27B。它在Online-Mind2Web上取得了63%的成绩……
微软推出了Fara1.5系列小型浏览器代理(4B、9B、27B),在计算机使用基准测试中取得了最先进的性能,在Online-Mind2Web上得分63%,并超越了Operator和Gemini等更大规模的模型。
Fara-7B:一种高效的计算机使用智能体模型
介绍了FaraGen——一种用于计算机使用智能体的合成数据生成系统,以及Fara-7B——一个体积小但效率高的模型,在网页任务基准测试中优于更大规模的模型。该模型已在Microsoft Foundry和HuggingFace上以开放权重形式发布。
microsoft/Fara-7B
微软发布了Fara-7B,这是一个高效的70亿参数智能小型语言模型(SLM),专为计算机使用任务设计,在其参数规模内实现了最先进的性能,并且与更大的系统相比具有竞争力。
@GitTrend0x: 专攻纯本地桌面自动化神器,最重要省钱! https://github.com/microsoft/fara 这就是 Fara-7B,微软推出的高效 Computer Use Agent 小模型!一句话干翻传统大模型 CUA:仅 7B 参数…
微软推出 Fara-7B,一款仅 7B 参数的高效 Computer Use Agent,在网页任务上超越更大模型,支持纯本地部署,低成本实现桌面自动化。
@_vmlops: 微软的FARA-7B可以为你使用电脑 7B参数...自主点击、滚动、填写表单、订票等
微软发布了Fara-7B,一个70亿参数的小型语言模型,可以自主控制电脑执行点击、滚动、填写表单等任务,在设备上运行,并在基准测试中击败了OpenAI的computer-use agent等更大模型。