@_vmlops: 微软的FARA-7B可以为你使用电脑 7B参数...自主点击、滚动、填写表单、订票等

X AI KOLs Timeline 模型

摘要

微软发布了Fara-7B,一个70亿参数的小型语言模型,可以自主控制电脑执行点击、滚动、填写表单等任务,在设备上运行,并在基准测试中击败了OpenAI的computer-use agent等更大模型。

微软的FARA-7B可以为你使用电脑 7B参数...自主点击、滚动、填写表单、订票 ▫️ 在设备上运行,数据留在本地 ▫️ 在基准测试中击败OpenAI的computer-use 小模型...大动作 https://t.co/GLTAfpet0N
查看原文
查看缓存全文

缓存时间: 2026/05/18 12:31

微软的Fara-7B能替你操作电脑 7B参数……自主完成点击、滚动、填写表单、订票等操作 ▫️ 本地运行,数据不出设备 ▫️ 在基准测试中超越OpenAI computer-use。小模型,大动作 https://t.co/GLTAfpet0N — # microsoft/fara 来源:https://github.com/microsoft/fara # Fara-7B:高效能的计算机使用智能体模型 微软 (https://aka.ms/msaif/fara) Hugging Face 模型 (https://huggingface.co/microsoft/Fara-7b) Foundry (https://aka.ms/foundry-fara-7b) 数据集 (https://huggingface.co/datasets/microsoft/WebTailBench) 数据集 (https://huggingface.co/datasets/microsoft/CUAVerifierBench) 论文 (https://arxiv.org/abs/2511.19663) — ## 更新 * 2026-05-12 — 刷新了 WebTailBench (V2) 的任务和评分标准。许多 V1 任务带有基于日历的过期日期(2025 年 11 月);V2 将这些日期向前滚动,并修订了全部 609 个任务的预计算评分标准。现在可在 microsoft/WebTailBench (https://huggingface.co/datasets/microsoft/WebTailBench) 上以 test_v2 分割形式获取。V1↔V2 的并排差异(任务字符串和评分标准 JSON)托管在此 (https://microsoft.github.io/fara/docs/webtailbench_v1_v2_diff.html)。 * 2026-04-19 — 发布了 CUAVerifierBench (https://huggingface.co/datasets/microsoft/CUAVerifierBench),这是一个用于评估 CUA 验证器(即对智能体轨迹进行评分的评判器)的人工标注基准。包含两个分割——fara7b_om2w_browserbase(106 条 Fara-7B Online-Mind2Web/Browserbase 轨迹,每条约 2 个评审员)和 internal(154 条来自保留的 aurora-v2 任务套件的轨迹)——包含每个评判器的 UV-blind / UV-informed 标签、通用验证器输出以及传统验证器输出的并排对比。生成该数据集的构建脚本与数据一同托管在 HuggingFace 上。 * 2026-04-18 — 移除了 webevalautogen-core / autogen-ext 的依赖;聊天完成客户端现在独立位于 webeval/src/webeval/oai_clients/ 下。不再需要 autogen 子模块安装步骤;只需 pip install -e .[vllm] 然后 cd webeval; pip install -e .。 * 2026-04-18 — 将 WebTailBench(初始/现已过时的版本)直接作为一等基准纳入仓库。加载器会自动从 microsoft/WebTailBench (https://huggingface.co/datasets/microsoft/WebTailBench) 下载 WebTailBench-v1-rubrics.tsv,并将每个任务发布的 precomputed_rubric 传递给验证器。可复现性 CLI 位于 webeval/scripts/webtailbench.py。 * 2026-04-18 — 发布了 通用验证器 (MMRubricAgent) 作为 WebTailBench 的官方验证器。多模态、基于评分标准、双模型集成(gpt-5.2 + o4-mini),支持按标准评分、结果验证和首次失败点分析。独立的并行运行器位于 webeval/scripts/verify_trajectories.py,可用于重新评分任何包含 webeval 轨迹的目录,无需触及求解器。 — ## 概述 Fara-7B 是微软首个专为计算机使用而设计的智能体小语言模型 (SLM)。仅 7B 参数的 Fara-7B 是一款超紧凑的计算机使用智能体 (CUA),在其尺寸类别中达到了顶尖性能,并能与更大、更耗资源的智能体系统竞争。按以下方式在本地尝试 Fara-7B(Windows 详细说明见安装)或通过 Magentic-UI: bash # 1. 克隆仓库 git clone https://github.com/microsoft/fara.git cd fara # 2. 设置环境 python3 -m venv .venv source .venv/bin/activate pip install -e . playwright install 然后在一个进程中托管模型: bash vllm serve "microsoft/Fara-7B" --port 5000 --dtype auto 之后你可以交互式查询: bash fara-cli --task "whats the weather in new york now" 若要在 Magentic-UI 中尝试 Fara-7B,请按照此处 Magentic-UI + Fara-7B (https://github.com/microsoft/magentic-ui/blob/main/README.md#fara-7b) 的说明操作。需像之前一样托管模型,但使用 Magentic-UI(带有漂亮 UI,见下方视频演示)代替 fara-cli。 注意: - 如果使用 Windows,强烈建议使用 WSL2(适用于 Linux 的 Windows 子系统)。请参阅安装部分中的 Windows 说明。 - 如果内存不足,可能需要在 vllm 命令中添加 --tensor-parallel-size 2购物 GitHub Issues 带芝士的导航 ### Fara-7B 的独特之处 传统聊天模型生成基于文本的回复,而 Fara-7B 则利用计算机界面——鼠标和键盘——代表用户执行多步骤任务。该模型: - 通过视觉操作:感知网页并执行滚动、键入和点击直接预测的坐标等操作,无需无障碍树或单独的解析模型。 - 支持本地部署:紧凑的 7B 参数规模降低了延迟,并提升了隐私性,因为用户数据保留在本地。 - 高效完成任务:平均每个任务仅需约 16 步,而同类模型约为 41 步。 Fara-7B 使用基于 Magentic-One (https://www.microsoft.com/en-us/research/articles/magentic-one-a-generalist-multi-agent-system-for-solving-complex-tasks/) 多智能体框架构建的新型合成数据生成流水线进行训练,包含覆盖多样网站、任务类型和难度级别的 145K 条轨迹。该模型基于 Qwen2.5-VL-7B (https://arxiv.org/abs/2502.13923),并通过监督微调进行训练。 ### 关键能力 Fara-7B 可以自动化日常网络任务,包括: - 搜索信息并总结结果 - 填写表单和管理账户 - 预订旅行、电影票和餐厅 - 跨零售商购物和比价 - 查找招聘信息和房地产列表 ### 性能亮点 Fara-7B 在多个网络智能体基准上取得了顶尖结果,优于同等尺寸模型和更大的系统: | 模型 | 参数 | WebVoyager | Online-M2W | DeepShop | WebTailBench | |—––|––––|————|————|–––––|–––––––| | SoM 智能体 | | | | | | | SoM Agent (GPT-4o-0513) | - | 90.6 | 57.7 | 49.1 | 60.4 | | SoM Agent (o3-mini) | - | 79.3 | 55.4 | 49.7 | 52.7 | | SoM Agent (GPT-4o) | - | 65.1 | 34.6 | 16.0 | 30.8 | | GLM-4.1V-9B-Thinking | 9B | 66.8 | 33.9 | 32.0 | 22.4 | | 计算机使用模型 | | | | | | | OpenAI computer-use-preview | - | 70.9 | 42.9 | 24.7 | 25.7 | | UI-TARS-1.5-7B | 7B | 66.4 | 31.3 | 11.6 | 19.5 | | Fara-7B | 7B | 73.5 | 34.1 | 26.2 | 38.4 | 表:在线智能体评估结果,显示四个网络基准的成功率 (%)。结果取 3 次运行的平均值。 ### WebTailBench:面向真实世界网络任务的新基准 我们发布了 WebTailBench (https://huggingface.co/datasets/microsoft/WebTailBench),这是一个新的评估基准,专注于 11 类在现有基准中代表性不足或缺失的真实世界任务类型。该基准包含 609 个任务,涵盖多种类别,前 8 个分段测试单一技能或目标(通常在一个网站上),剩余 3 个分段评估更困难的多步骤或跨网站任务。 #### WebTailBench 详细结果 | 任务分段 | 任务数 | SoM GPT-4o-0513 | SoM o3-mini | SoM GPT-4o | GLM-4.1V-9B | OAI Comp-Use | UI-TARS-1.5 | Fara-7B | |–––––––|—––|—————–|———––|————|———––|–––––––|———––|———––| | 单网站任务 | | 购物 | 56 | 62.5 | 71.4 | 38.1 | 31.0 | 42.3 | 41.1 | 52.4 | | 航班 | 51 | 60.1 | 39.2 | 11.1 | 10.5 | 17.6 | 10.5 | 37.9 | | 酒店 | 52 | 68.6 | 56.4 | 31.4 | 19.9 | 26.9 | 35.3 | 53.8 | | 餐厅 | 52 | 67.9 | 59.6 | 47.4 | 32.1 | 35.9 | 22.4 | 47.4 | | 活动 | 80 | 70.4 | 62.9 | 41.7 | 26.3 | 30.4 | 9.6 | 36.3 | | 票务 | 57 | 58.5 | 56.7 | 37.4 | 35.7 | 49.7 | 30.4 | 38.6 | | 房地产 | 48 | 34.0 | 17.4 | 20.1 | 16.0 | 9.0 | 9.7 | 23.6 | | 工作/职业 | 50 | 49.3 | 44.0 | 32.7 | 22.7 | 20.7 | 20.7 | 28.0 | | 多步骤任务 | | 购物清单(2 件) | 51 | 66.0 | 62.7 | 17.0 | 7.8 | 34.0 | 20.9 | 49.0 | | 比价购物 | 57 | 67.3 | 59.1 | 27.5 | 22.8 | 1.2 | 8.8 | 32.7 | | 组合任务 | 55 | 51.5 | 39.4 | 26.7 | 17.0 | 10.3 | 9.1 | 23.0 | | 总体 | | 宏观平均 | 609 | 59.7 | 51.7 | 30.1 | 22.0 | 25.3 | 19.9 | 38.4 | | 微观平均 | 609 | 60.4 | 52.7 | 30.8 | 22.4 | 25.7 | 19.5 | 38.4 | 表:WebTailBench 在所有 11 个分段上的结果明细。成功率 (%) 取 3 次独立运行的平均值。Fara-7B 在所有任务类别中的计算机使用模型中取得了最高性能。 即将推出: - 用于 LLM 作为评判的任务验证流水线 - WebTailBench 的官方人工标注(与 BrowserBase 合作) ### CUAVerifierBench:评估验证器本身 虽然 WebTailBench 衡量的是智能体,但 CUAVerifierBench (https://huggingface.co/datasets/microsoft/CUAVerifierBench) 衡量的是对智能体进行评分的评判者。每一行将一条 Fara-7B 智能体轨迹(指令、截图、web_surfer 日志、最终答案)与一名人类评审员的评判结果配对,同时还包括由通用验证器 (MMRubricAgent) 及若干传统验证器产生的评判结果——这样研究人员可以在固定语料库上计算验证器与人类的一致性(Cohen’s κ、准确率、F1),并针对冻结的真实参照集迭代新的评判提示/架构。 该数据集以两个 HuggingFace 配置暴露,可通过 task_id 进行连接: | 配置 | 粒度 | 内容 | |—|—|—| | trajectories | 每个任务一行 | 指令、截图、web_surfer 日志、验证器输出、任务级别的人类汇总 | | annotations | 每个(任务,评判者)一行 | 每个评审员的结果/过程标签及自由文本理由 | 目前发布两个分割: | 分割 | 来源 | 轨迹数 | 标注行数 | |—|—|—|—| | fara7b_om2w_browserbase | Fara-7B 在通过 Browserbase 执行的 Online-Mind2Web 任务上的轨迹 | 106 | 215(每任务约 2 名评审员;包括 UV-blind UV-informed 阶段) | | internal | 保留的 aurora-v2 任务套件,使用相同的 WebSurfer + 验证器栈评分 | 154 | 154(每任务 1 名评审员;仅 UV-blind) | 评审员身份匿名化为 Judge1JudgeN,使用两个分割共享的单张映射表。生成数据集的构建脚本(包含完整架构和出处)与数据一同托管在 HuggingFace 上的 microsoft/CUAVerifierBench (https://huggingface.co/datasets/microsoft/CUAVerifierBench);完整列列表请参阅数据集 README (https://huggingface.co/datasets/microsoft/CUAVerifierBench/blob/main/README.md)。 python from datasets import load_dataset trajs = load_dataset("microsoft/CUAVerifierBench", "trajectories", split="fara7b_om2w_browserbase") anns = load_dataset("microsoft/CUAVerifierBench", "annotations", split="fara7b_om2w_browserbase") ### 评估基础设施 我们的评估设置利用: 1. Playwright - 一个跨浏览器自动化框架,可复制浏览器环境 2. 抽象网络智能体接口 - 允许将任何来源的任何模型集成到评估环境中 3. Fara-Agent 类 - 用于运行 Fara 模型的参考实现 > 注意: Fara-7B 是一个实验性发布版本,旨在邀请社区亲身探索和反馈。建议在沙盒环境中运行,监控其执行,并避免涉及敏感数据或高风险领域。 — # 安装 ## Linux 以下说明适用于 Linux 系统,Windows 说明请参见下方 Windows 部分。 使用 pip 安装包并通过 Playwright 设置环境: bash # 1. 克隆仓库 git clone https://github.com/microsoft/fara.git cd fara # 2. 设置环境 python3 -m venv .venv source .venv/bin/activate pip install -e .[vllm] playwright install 注意:如果仅计划使用 Azure Foundry 托管,可以跳过 [vllm],直接执行 pip install -e . ## Windows 对于 Windows,我们强烈建议使用 WSL2(适用于 Linux 的 Windows 子系统)来提供类似 Linux 的环境。但如果您希望在 Windows 上原生运行,请按以下步骤操作: bash # 1. 克隆仓库 git clone https://github.com/microsoft/fara.git cd fara # 2. 设置环境 python3 -m venv .venv .venv\Scripts\activate pip install -e . python3 -m playwright install ## 托管模型 推荐: 最简便的方法是使用 Azure Foundry 托管,无需 GPU 硬件或模型下载。或者,如果有 GPU 资源,也可使用 vLLM 自行托管。 ### Azure Foundry 托管(推荐) 在 Azure Foundry (https://ai.azure.com/explore/models/Fara-7B/version/2/registry/azureml-msr) 上部署 Fara-7B,无需下载权重或管理 GPU 基础设施。 设置: 1. 在 Azure Foundry 上部署 Fara-7B 模型,获取你的端点 URL 和 API 密钥。 然后创建端点配置 JSON 文件(例如 azure_foundry_config.json): json { "model": "Fara-7B", "base_url": "https://your-endpoint.inference.ml.azure.com/", "api_key": "YOUR_API_KEY_HERE" } 之后你可以使用此端点配置运行 Fara-7B。 2. 运行 Fara 智能体: bash fara-cli --task "how many pages does wikipedia have" --endpoint_config azure_foundry_config.json [--headful] 注意:你也可以使用参数 --base_url [你的base_url] --api_key [你的api_key] --model [你的模型名] 来指定端点配置,而不使用配置文件 JSON。 注意:如果遇到 fara-cli 命令未找到的错误,请尝试: bash python -m fara.run_fara --task "what is the weather in new york now" 就是这样!无需 GPU 或模型下载。 ### 使用 vLLM 或 LM Studio / Ollama 自行托管 如果你有 GPU 资源,可以使用 vLLM 自行托管 Fara-7B。这需要一台具有足够显存(例如 24GB 或更多)的 GPU 机器。 仅在 Linux 上:只需运行以下命令启动 vLLM 服务器: bash vllm serve "microsoft/Fara-7B" --port 5000 --dtype auto 对于量化模型或显存较低的 GPU,请参阅 HuggingFace 上的 Fara-7B GGUF (https://huggingface.co/bartowski/microsoft_Fara-7B-GGUF)。 对于 Windows/Mac,vLLM 本身不支持。你可以在 Windows 上使用 WSL2 运行上述命令,或按照下文所述使用 LM Studio / Ollama。 另外,你也可以使用 LM Studio (https://lmstudio.ai/) 或 Ollama (https://ollama.com/) 在本地托管模型。我们目前推荐使用我们模型的以下 GGUF 版本 Fara-7B GGUF on HuggingFace (https://huggingface.co/bartowski/microsoft_Fara-7B-GGUF) 配合 LM Studio 或 Ollama。选择适合你 GPU 的最大模型。请确保上下文长度至少设置为 15000 个 token,温度设置为 0 以获得最佳结果。 然后你可以运行 Fara-7B 并指向本地服务器: 运行测试脚本以查看 Fara 的运行效果: bash fara-cli --task "what is the weather in new york now" 如果你不是使用 vLLM 托管,请指定正确的 --base_url [你的base_url] --api_key [你的api_key] --model [你的模型名]。 如果遇到 fara-cli 命令未找到的错误,请尝试: bash python -m fara.run_fara --task "what is the weather in new york now" # 可复现性 我们在 webeval/ 中提供了一个框架,用于在 WebVoyager 和 OnlineMind2Web 上复现我们的结果。由于日常变化,在真实网站上进行智能体评估带来了独特的挑战。我们实施了多项措施以确保可靠且可比较的评估: BrowserBase 集成 我们使用 BrowserBase 来管理浏览器会话托管,实现可靠的浏览器实例管理。 时间敏感的任务更新 像 WebVoyager 这样的基准中的任务可能会过时或变得不可能。我们: - 移除了过时或不可用的任务。 - 更新了过时网站的镜像。 - 为每

相似文章

microsoft/Fara-7B

Hugging Face Models Trending

微软发布了Fara-7B,这是一个高效的70亿参数智能小型语言模型(SLM),专为计算机使用任务设计,在其参数规模内实现了最先进的性能,并且与更大的系统相比具有竞争力。

@axiaisacat: 字节跳动开源了一个能直接操控你电脑的 AI 叫 UI-TARS,开源免费,本地运行 你用说话的方式告诉它: 「帮我在 Priceline 订9月1日最早的旧金山到纽约的机票」 「帮我把 VS Code 的自动保存延迟设置成500毫秒」 「…

X AI KOLs Timeline

ByteDance has open-sourced UI-TARS, an AI model capable of directly controlling computer interfaces via mouse and keyboard for tasks like booking flights or configuring software. Available in 2B, 7B, and 72B parameter sizes, it runs locally and offers a free alternative to paid services like Anthropic's Computer Use.