@ms_aifrontiers: 与MagenticLite一起,我们推出了Fara1.5:一系列小型浏览器代理,参数规模分别为4B、9B和27B。它在Online-Mind2Web上取得了63%的成绩……
摘要
微软推出了Fara1.5系列小型浏览器代理(4B、9B、27B),在计算机使用基准测试中取得了最先进的性能,在Online-Mind2Web上得分63%,并超越了Operator和Gemini等更大规模的模型。
查看缓存全文
缓存时间: 2026/05/22 17:53
与MagenticLite一同,我们推出了Fara1.5:一款小型浏览器代理模型家族,包含4B、9B和27B三种规格。
该模型在Online-Mind2Well测试中取得了63%的分数,几乎是Fara-7B的两倍,并在同等规模模型中达到最优。27B版本超越了Operator、Gemini 2.5 CU和Yutori n1。
现已在Microsoft Foundry上线。https://microsoft.com/en-us/research/articles/fara1-5-computer-use-agent/…
#CUA #AI
Fara1.5 - 前沿计算机使用代理模型家族 - 微软研究院
来源:https://www.microsoft.com/en-us/research/articles/fara1-5-computer-use-agent/ 作者:Ahmed Awadallah (https://www.microsoft.com/en-us/research/people/hassanam/?msockid=2ed01cde5424635c327f0af7556862db),Sahil Gupta (https://www.microsoft.com/en-us/research/people/t-sahilgupta/),Yash Lara (https://www.microsoft.com/en-us/research/people/yashlara/?msockid=2ed01cde5424635c327f0af7556862db),Yadong Lu (https://www.microsoft.com/en-us/research/people/luyadong/?msockid=2ed01cde5424635c327f0af7556862db),Hussein Mozannar (https://www.microsoft.com/en-us/research/people/hmozannar/?msockid=2ed01cde5424635c327f0af7556862db),Akshay Nambi (https://www.microsoft.com/en-us/research/people/akshayn/?msockid=2ed01cde5424635c327f0af7556862db),Zach Nussbaum (https://www.microsoft.com/en-us/research/people/zachnussbaum/),Yash Pandya (https://www.microsoft.com/en-us/research/people/yashpandya/?msockid=2ed01cde5424635c327f0af7556862db),Aravind Rajeswaran (https://www.microsoft.com/en-us/research/people/arrajeswaran/?msockid=2ed01cde5424635c327f0af7556862db),Corby Rosset (https://www.microsoft.com/en-us/research/people/corbyrosset/?msockid=2ed01cde5424635c327f0af7556862db),Alexey Taymanov (https://www.microsoft.com/en-us/research/people/ataymano/?msockid=2ed01cde5424635c327f0af7556862db),Luiz do Valle (https://www.microsoft.com/en-us/research/people/luizdovalle/?msockid=2ed01cde5424635c327f0af7556862db),Vibhav Vineet (https://www.microsoft.com/en-us/research/people/vivineet/?msockid=2ed01cde5424635c327f0af7556862db),Spencer Whitehead (https://www.microsoft.com/en-us/research/people/spwhitehead/),Andrew Zhao (https://www.microsoft.com/en-us/research/people/andrewzhao/)
我们非常高兴地推出面向浏览器的计算机使用代理(CUA)模型家族Fara1.5:Fara1.5-4B、Fara1.5-9B和Fara1.5-27B。
柱状图比较了Fara1.5-9B与同等规模模型在Online-Mind2Web(63.4 vs 34.1–48.6)和WebVoyager(86.6 vs 73.5–80.2)上的表现。**图1.**自动评估下的任务成功率(%)。Fara1.5-9B优于其他同等规模模型,并在其规模级别中树立了新标杆。基于我们在Fara-7B上的工作,Fara1.5模型代表了小型语言代理模型(SLM)的重大进步。在整个家族中,这些模型是其各自模型尺寸中最强大的CUA模型,同时仍可在普通硬件上实用部署。
Fara1.5模型能在浏览器中完成各种复杂任务,如比较产品、填写表单、预订活动等。与Fara-7B (https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/)相比,我们在用户体验和所有基准测试中均观察到明显改进。具体而言,Fara1.5带来了多项进步:
- **能力出众的CUA模型家族。**我们发布了三种模型规格:4B、9B和27B,以适应不同的成本和性能需求。在关键基准测试中,Fara1.5优于其他类似尺寸的模型。例如,在包含136个流行网站、300个任务的Online-Mind2Web基准测试中,Fara1.5-9B实现了63%的任务成功率,几乎是Fara-7B的两倍,并显著超越了此前该规模下表现最好的模型GUI-Owl-1.5-8B(49%)。此外,Fara1.5-4B以57%的成功率表现强劲,而更大的Fara1.5-27B则达到72%,缩小了与Yutori n1等专有模型的差距。
- **针对真实交互优化。**基于我们在MagenticLite上的工作,Fara1.5经过训练,可以完成人们在真实世界想要执行的任务,例如填写表单或跨网站比价购物。Fara1.5还尊重用户偏好,并在必要时请求批准和澄清。通过以用户体验为中心设计Fara1.5的训练,用户可以体验到更流畅的交互,并更好地控制他们的任务。
- **超越受限领域。**仅使用来自公开可见的实时网站的数据限制了我们可以训练代理的活动。例如,需要登录的领域或需要不可逆操作(如发送电子邮件)的任务出于安全原因无法在实时网络上完成。然而,这类任务正是CUA模型的重要用例。我们使用模拟流行在线网站/应用的合成域来补充训练数据,使我们的模型能够在受限领域之外采取行动,例如发送电子邮件或预订航班,而不仅仅是搜索。
代理循环
给定用户的任务后,Fara1.5模型遵循观察-思考-行动循环。在循环的每一步,Fara1.5模型接收之前的对话历史和最近的三张浏览器截图(包括当前页面)。利用这些上下文,模型输出思考并预测下一步的单步动作。这些动作包括标准鼠标键盘输入、网页特定动作(例如网页搜索)以及上下文管理动作(例如记下事实以备后用或向用户提问)。我们的元动作(例如上下文管理)使Fara1.5模型能够在更长的任务跨度上操作,并与用户协作完成任务。
Fara1.5观察-思考-行动循环的三阶段图。观察:获取截图和对话历史。思考:VLM推理。行动:每一步发出一个原子动作。图2. Fara1.5观察-思考-行动循环示意图。### 训练
我们使用下文描述的FaraGen1.5系统中的轨迹数据训练模型。在这里,轨迹是用户消息与来自任务求解代理的观察-思考-行动步骤交错组成的序列,该代理演示如何完成任务。
**训练设置。**我们将轨迹中的每一步视为一个训练示例,训练模型根据前面的步骤输出当前步骤。如前所述,每一步的输入包含完整的文本对话历史和最近的三张截图。由于我们在每一步只保留最新的三张截图,因此我们只将损失应用于最近三轮的动作。下图显示了这一示例。我们对思考文本和动作的标记使用交叉熵损失。
SFT训练输入和损失掩码图。早期的步骤以灰色显示为仅输入上下文。最后三步高亮为计算损失的部分。**图3.**训练输入/输出设置。模型观察所有轮次的动作,但仅使用最近3张截图。损失有选择地仅应用于最近的轮次。**数据混合。**我们训练数据的核心是已被验证能够解决复杂任务的完整轨迹。除了这些代理性轨迹痕迹外,我们的最终数据混合还包括来自相关辅助任务的数据,如基础定位、VQA、指令遵循和安全性。我们训练数据集的细分如下图所示。随着时间的推移,我们尝试了各种数据混合,最终得出了这个配方,它在代理任务性能与基础定位、VQA等核心能力的保持或提升之间提供了理想的权衡。
按月显示的2024年2月至2026年5月训练样本数量柱状图,以及最终约200万样本训练混合的环形图:网页轨迹 60.0%,合成环境 12.8%,表单填写与用户交互 12.5%,基础定位 8.8%,VQA 4.9%,GUI拖拽 0.8%,指令遵循+安全 0.1%。图4. Fara1.5最终训练配方的构成。**基础模型。**我们选择Qwen3.5作为基础模型,因为它具有强大的基础定位和推理能力。通过使用更强的基础模型,我们为微调提供了更好的起点,并总体上达到了更高的性能。我们使用4B、9B和27B的变体模型作为骨干网络。
模型家族
Fara1.5提供三种模型尺寸——4B、9B和27B。在保持训练数据不变的情况下,我们训练了不同尺寸的模型,并在两个基准测试——WebVoyager和Online-Mind2Web上进行了评估。我们观察到随着模型尺寸扩大,性能呈现出明显的正向缩放趋势。从4B到27B,Online-Mind2Web提升了+14.7个百分点,WebVoyager提升了+7.8个百分点。这表明我们的训练配方既适用于运行在设备上的边缘规模模型,也适用于更大的云端模型。我们还注意到,Fara1.5-27B是基于Online-Mind2Web排行榜的顶级模型之一,其性能甚至优于更大的专有模型,如Gemini 2.5 Computer Use、OpenAI operator和Yutori Navigator n1。
左图:Fara1.5成功率随模型大小在Online-Mind2Web(57.3→63.4→72.0)和WebVoyager(80.8→86.6→88.6)上的缩放折线图。右图:Fara1.5-27B与MolmoWeb、Gemini 2.5 CU、Operator和Navigator (N1)在Online-Mind2Web上的柱状图对比。**图5.**我们观察到模型大小与性能之间存在强烈的正相关缩放趋势。事实上,Fara1.5-27B要么与强大的专有模型竞争,要么优于它们。我们与截至2026年5月官方排行榜中可用的自动评估结果进行了对比。## FaraGen1.5: CUA端到端合成数据生成
FaraGen1.5是我们面向计算机使用数据的可扩展合成数据生成管道的下一次演进。该管道由三个模块化组件组成:环境、求解器和验证器。与Fara-7B (https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/)中的FaraGen相比,此次演进使得环境集合得以扩展,包括用于任务求解的合成域,以及实现更高精度的改进求解器,以及与人类判断更一致、更可靠的验证器。
FaraGen1.5的三阶段流程图:(1) 环境——实时网址加上六个沙盒化的合成FaraEnv。(2) 求解器——一个强大的GPT-5.4教师代理加上一个用户模拟器,生成候选轨迹。(3) 验证器——三个过滤器(正确性、效率、用户交互)决定哪些轨迹进入Fara1.5-4B/9B/27B模型的SFT训练。**图6.**我们的FaraGen1.5可扩展的计算机使用数据合成数据管道。### 环境
我们的目标是让任务分布反映用户在网络上关心的真实任务。根据Fara-7B的反馈,我们优先考虑两种广泛的环景来创建任务:开放互联网域和受限域。
开放互联网任务是指可以在实时网站上完成的任务,无需登录、真实账户等。例如,一个任务可能是查找微软研究院当前的实习机会,这仅涉及浏览网页和识别选项。针对这些任务,我们沿用FaraGen中相同的大型网址索引作为种子,生成多样化的任务,并按不同类型和目标使用场景进行分类。此外,我们通过手动策划种子任务来扩展任务类型覆盖范围,这些种子任务捕捉了来自Fara-7B反馈所揭示的使用案例。这包括填写表单、产品比较等任务。
受限域任务需要登录和账户才能完成。回到上面的例子,如果任务变成了申请实习,那么这就成了问题,因为我们的求解系统将执行不可逆的操作,并且需要真实登录。为了解决这个问题,我们创建了模拟真实世界域的合成环境,这使得我们的代理能够学习超越受限域的任务。在FaraGen1.5中,我们使用半自动化的配方来生成功能上复制真实域的合成网站。
**合成环境创建。**我们创建这些环境的方法始于收集我们想要复制的域上的交互轨迹。然后,我们将这些交互提供给编码代理,特别是GitHub Copilot CLI(在新标签页中打开) (https://github.com/features/copilot/cli/),以生成完全功能沙盒化克隆的规范,并配有逼真的前端和由数据库支持的完全功能API。编码代理与人类协作,根据人类反馈迭代优化环境。最终的结果是所需网站或应用的完全功能复制品。我们发现编码代理的第一次迭代往往有缺陷,例如按钮无效。但与迭代式人工测试相结合,我们发现编码代理是生成合成训练环境的绝佳方式。
一旦我们有了这些合成复制环境,我们就会生成现实的任务场景,同时考虑到用于填充该环境的环境和数据库。例如,如果我们正在构建一个电子邮件域,我们会生成基于人物角色的叙述环境,以模拟一家小型IT公司的员工,其电子邮件涉及IT项目,并且日历邀请涉及相同同事,以确保一致性。由于我们控制整个堆栈(UI、数据库、种子数据和任务),我们知道每个任务的正确结果。对于代理必须更改后端数据库状态的任务,LLM评估器通过比较执行前后的数据库快照来对轨迹进行评分。评估器确认已执行预期的操作,且未执行其他操作。对于不产生数据库更改的任务,由LLM评估器根据预计算的参考答案进行评分。
我们使用此管道生成了六个合成环境(FaraEnv),涵盖电子邮件客户端、日历、媒体平台、ML实验管理器和市场等域。
求解器
给定来自上一步的任务,我们使用一个强大的求解器代理与用户模拟器交互,为任务生成一个轨迹,用于监督微调。具体来说,我们使用OpenAI的GPT-5.4,并配合自定义工具,在多轮工具调用循环中复制Fara1.5的动作空间。这个新的求解器代理在使用自动化WebJudges的Online-Mind2Web上获得了83%的分数,而我们在早期Fara-7B中使用的求解器系统得分为67%。在某些情况下,我们限制GPT-5.4的能力,以便小模型能够学习这些数据,例如不允许其发出可能绕过网站交互的复杂URL查询。
如果求解器代理发出ask_user工具调用,用户模拟器会被调用,以向代理提供关于任务的额外上下文(用户信息、解决歧义或提供偏好),或者当代理完成任务时,提供调整或后续请求。
验证器
一旦生成了轨迹,我们需要确保其质量足够高以供训练使用。我们根据三个标准来评判轨迹:正确性、效率和用户交互。任何未通过这三项标准中任何一项的轨迹都不会被纳入我们的训练数据。对于正确性,我们依赖我们团队为开放互联网任务发布的Universal Verifier中的过程评分,该评分使用LLM生成的评分准则来评判轨迹。在合成环境中,我们使用前面提到的特权信息LLM评估器。对于效率,我们使用一个LLM评估器,根据轨迹在效率方面是否存在任何低效之处进行评分。
相似文章
@_vmlops: 微软的FARA-7B可以为你使用电脑 7B参数...自主点击、滚动、填写表单、订票等
微软发布了Fara-7B,一个70亿参数的小型语言模型,可以自主控制电脑执行点击、滚动、填写表单等任务,在设备上运行,并在基准测试中击败了OpenAI的computer-use agent等更大模型。
microsoft/Fara-7B
微软发布了Fara-7B,这是一个高效的70亿参数智能小型语言模型(SLM),专为计算机使用任务设计,在其参数规模内实现了最先进的性能,并且与更大的系统相比具有竞争力。
@DJLougen: 致训练这个 @Microsoft 的人,愿上帝保佑你,你的灵魂,这结合 browserOS 太令人印象深刻了
微软发布了 Fara-7B,一个拥有70亿参数的用于计算机操作的智能小型语言模型,在其规模模型中实现了最先进的性能,并与大型系统竞争。
“浏览器代理成本高昂且仍在成熟”这种表述可能忽略了架构方面的问题
讨论了当前使用无头Chrome加AI层的浏览器代理的架构问题,并介绍了Opera Neon的命令行界面作为替代方案,将AI集成到浏览器中,从而降低令牌开销并提高理解能力。
谷歌发布针对智能体优化的 Gemini 3.5 Flash 及名为 Omni 的万能模型
谷歌发布 Gemini 3.5 Flash,一款针对智能体任务优化的高效前沿模型,以及名为 Omni 的万能模型,声称在速度和编码性能上实现突破。