@ms_aifrontiers: Fara1.5 来了!技术报告刚刚发表在 arXiv 上。在其尺寸的电脑使用代理中达到新 SOTA,并与更大的前沿模型竞争…

X AI KOLs Following 模型

摘要

Fara1.5 是一系列原生的电脑使用代理,使用 FaraGen1.5 可扩展数据管道进行训练。这些模型在浏览器使用基准测试中取得了新的最优结果,与更大的前沿模型竞争。

Fara1.5 来了! 技术报告刚刚发表在 arXiv 上。在其尺寸的电脑使用代理中达到新 SOTA,并与更大的前沿模型竞争。 论文:https://t.co/BkhgwNuxiq
查看原文
查看缓存全文

缓存时间: 2026/06/25 09:16

Fara1.5 来了!

技术报告刚刚发布在 arXiv 上。在同尺寸计算机使用智能体中达到新的 SOTA,并能与更大的前沿模型竞争。

论文:https://t.co/BkhgwNuxiq


Fara-1.5:面向计算机使用智能体的可扩展学习环境

来源:https://arxiv.org/abs/2606.20785 作者:Ahmed Awadallah (https://arxiv.org/search/cs?searchtype=author&query=Awadallah,+A), Sahil Gupta (https://arxiv.org/search/cs?searchtype=author&query=Gupta,+S), Yash Lara (https://arxiv.org/search/cs?searchtype=author&query=Lara,+Y), Yadong Lu (https://arxiv.org/search/cs?searchtype=author&query=Lu,+Y), Hussein Mozannar (https://arxiv.org/search/cs?searchtype=author&query=Mozannar,+H), Akshay Nambi (https://arxiv.org/search/cs?searchtype=author&query=Nambi,+A), Zach Nussbaum (https://arxiv.org/search/cs?searchtype=author&query=Nussbaum,+Z), Yash Pandya (https://arxiv.org/search/cs?searchtype=author&query=Pandya,+Y), Aravind Rajeswaran (https://arxiv.org/search/cs?searchtype=author&query=Rajeswaran,+A), Corby Rosset (https://arxiv.org/search/cs?searchtype=author&query=Rosset,+C), Alexey Taymanov (https://arxiv.org/search/cs?searchtype=author&query=Taymanov,+A), Luiz do Valle (https://arxiv.org/search/cs?searchtype=author&query=Valle,+L+d), Vibhav Vineet (https://arxiv.org/search/cs?searchtype=author&query=Vineet,+V), Spencer Whitehead (https://arxiv.org/search/cs?searchtype=author&query=Whitehead,+S), Andrew Zhao (https://arxiv.org/search/cs?searchtype=author&query=Zhao,+A)

查看 PDF (https://arxiv.org/pdf/2606.20785)

摘要:从人类演示中收集计算机使用数据既昂贵又缓慢,因此需要可扩展的生成策略。这需要两个关键要素:智能体可以行动的环境,以及能够判断其演示是否成功的验证器。我们提出了 FaraGen1.5,一个面向计算机使用智能体的可扩展数据流水线,由三个模块化组件构成:环境、求解器和验证器。FaraGen1.5 既使用实时网站,也使用能忠实地模拟需认证或需执行不可逆操作领域的合成环境。它采用可由多个模型驱动的求解器框架(包括像 GPT-5.4 这样的强前沿模型),并整合了一个用户模拟器以实现多轮交互展开。最后,FaraGen1.5 使用三个互补的验证器对生成的轨迹进行评分,覆盖任务正确性、效率和关键点遵循。利用该流水线产出的数据,我们训练了 Fara1.5 系列,这是一个基于 Qwen3.5(4B、9B 和 27B)构建的本机计算机使用智能体(CUA)家族,包含三个规模。为了训练这些模型,我们采用了一种监督微调(SFT)方案,该方案精心平衡了来自 FaraGen1.5 的数据,以迭代方式确保广泛覆盖、特定高价值任务以及目标模型的不足之处。每个模型都为其规模级别在浏览器使用基准上设立了新的最佳水平:Fara1.5-9B 在 Online-Mind2Web 上达到 63.4%,在 WebVoyager 上达到 86.6%;而 Fara1.5-27B 在 Online-Mind2Web 上达到 72.3%,与规模大得多的专有系统具有竞争力。

提交历史

来自:Aravind Rajeswaran [查看邮件 (https://arxiv.org/show-email/3feb96ac/2606.20785)] [v1] 2026年6月18日星期四 17:53:03 UTC(12,657 KB)

相似文章

Fara-7B:一种高效的计算机使用智能体模型

Papers with Code Trending

介绍了FaraGen——一种用于计算机使用智能体的合成数据生成系统,以及Fara-7B——一个体积小但效率高的模型,在网页任务基准测试中优于更大规模的模型。该模型已在Microsoft Foundry和HuggingFace上以开放权重形式发布。

microsoft/Fara-7B

Hugging Face Models Trending

微软发布了Fara-7B,这是一个高效的70亿参数智能小型语言模型(SLM),专为计算机使用任务设计,在其参数规模内实现了最先进的性能,并且与更大的系统相比具有竞争力。