@DJLougen: 致训练这个 @Microsoft 的人，愿上帝保佑你，你的灵魂，这结合 browserOS 太令人印象深刻了

X AI KOLs Timeline 2026/05/14 21:47 模型

microsoft fara-7b small-language-model agentic-model computer-use open-source

摘要

微软发布了 Fara-7B，一个拥有70亿参数的用于计算机操作的智能小型语言模型，在其规模模型中实现了最先进的性能，并与大型系统竞争。

致训练这个 @Microsoft 的人，愿上帝保佑你，你的灵魂，这结合 browserOS 太令人印象深刻了 https://t.co/a0d39xxqi8

查看原文

查看缓存全文

缓存时间: 2026/05/15 04:56

训练出这个 @Microsoft 模型的人，愿上帝保佑你，这配合 browserOS 实在太强了 https://t.co/a0d39xxqi8 — # microsoft/Fara-7B · Hugging Face 来源：https://huggingface.co/microsoft/Fara-7B ## https://huggingface.co/microsoft/Fara-7B#fara-7b-an-efficient-agentic-model-for-computer-use Fara-7B：一个高效的计算机操作智能体模型微软（https://aka.ms/msaif/fara） Hugging Face 数据集（https://huggingface.co/datasets/microsoft/WebTailBench） Foundry（https://aka.ms/foundry-fara-7b） GitHub（https://github.com/microsoft/fara）论文（https://huggingface.co/papers/2511.19663）微软官方博客（https://www.microsoft.com/en-us/research/?p=1155843&preview=1&_ppp=0a22f3e916）技术报告（https://aka.ms/fara-techreport）论文（https://huggingface.co/papers/2511.19663） GitHub（https://github.com/microsoft/fara）在 Microsoft Foundry 上试用 Fara-7B（https://ai.azure.com/explore/models/Fara-7B/version/1/registry/azureml-msr?tid=72f988bf-86f1-41af-91ab-2d7cd011db47） ## https://huggingface.co/microsoft/Fara-7B#model-summary 模型摘要 开发者： 微软研究院 描述： Fara-7B 是微软首个专门为计算机操作设计的智能体小语言模型（SLM）。仅 70 亿参数，Fara-7B 是一个超紧凑的计算机操作智能体（CUA），在其尺寸类别中达到最先进水平，并且能与更大、更消耗资源的智能体系统竞争。 模型架构： 多模态解码器仅语言模型，接收图像（截图）+ 文本上下文。直接预测带有基于参数的动作和思考。当前生产基线使用 Qwen 2.5-VL（7B）。 参数数量： 70 亿 输入： 用户目标（文本）、当前截图、之前智能体输出历史（思考 + 动作文本）。 上下文长度： 128k 输出： 根据输入生成的文本，包含一个思维链模块，后跟一个工具调用模块以指示动作。 GPU： 64 张 H100 训练时间： 2.5 天 公开数据摘要： 不适用 日期： 训练于 2025 年 10 月 26 日至 2025 年 10 月 29 日 状态： 在公开和私有数据上训练的静态模型 发布日期： 2025 年 11 月 24 日 许可证： MIT 模型依赖： Qwen 2.5 VL 额外资产： 不适用 可接受使用政策： 不适用 — ## https://huggingface.co/microsoft/Fara-7B#1-model-overview 1. 模型概述 Fara 是一个 7B 的计算机操作智能体（CUA）模型，专门用于在网页上执行操作来完成高级用户任务。除了理解网页布局和基本操作机制外，它还能规划并执行高级目标，如预订餐厅、申请工作、规划旅行和购买购物清单。其训练依赖于大规模、完全合成的动作轨迹数据集，这些轨迹由多智能体管道生成并验证。Fara 通过截图感知浏览器输入，而内部推理和状态历史以文本形式记录。基于最近的截图和完整的动作历史，它预测下一个动作及其必要参数（例如，点击的坐标）。 ### https://huggingface.co/microsoft/Fara-7B#11-alignment-approach 1.1 对齐方法 Fara-7B 使用稳健的训练后安全方法，利用开源和内部合成数据集。它集成了关键点识别——需要用户许可或敏感信息的情况——以安全地停止操作。该模型被训练拒绝有害任务，并经过自动红队测试以评估风险，包括基础能力、越狱、有害内容和版权违规。 ### https://huggingface.co/microsoft/Fara-7B#12-safeguards 1.2 安全措施 Fara-7B 被训练拒绝违反使用政策类别的任务：类型 | 描述 | 示例 — | — | — 非法活动 | 需要非法行为的任务 | 恐怖主义相关搜索、盗版、未经授权的访问、武器制造欺骗性任务 | 误导或冒充的任务 | 虚假表单、欺诈列表、钓鱼高风险/受监管领域 | 需要专业监督的任务 | 医疗、法律、财务建议或批准骚扰、剥削、仇恨 | 伤害或歧视的任务 | 骚扰内容、跟踪、未成年人性化不安全的 Technical 使用 | 自动化滥用 | 大规模抓取、垃圾邮件、系统破坏错误信息 | 传播虚假声明 | 发布未经核实的声明色情 | 色情或色情任务 | 色情角色扮演、色情搜索智能体停止的关键点包括：输入个人信息、完成购买、打电话、发送电子邮件、提交申请和登录账户。 — ## https://huggingface.co/microsoft/Fara-7B#2-usage 2. 使用 ### https://huggingface.co/microsoft/Fara-7B#sample-usage 示例用法你可以通过设置环境并托管模型在本地试用 Fara-7B。完整说明请参考 GitHub 仓库（https://github.com/microsoft/fara#installation）。 # 1. 克隆仓库 git clone https://github.com/microsoft/fara.git cd fara # 2. 设置环境 python3 -m venv .venv source .venv/bin/activate pip install -e . playwright install 然后在另一个进程中托管模型： vllm serve "microsoft/Fara-7B" --port 5000 --dtype auto 然后你可以通过以下命令迭代查询： fara-cli --task "whats the weather in new york now" 提示：如果内存不足，可能需要在 vllm 命令中添加 --tensor-parallel-size 2 ### https://huggingface.co/microsoft/Fara-7B#21-primary-use-cases 2.1 主要用例 - 自动化网页任务，如购物、预订旅行、餐厅预订、信息查询或账户工作流。 - 通过浏览器截图的多模态理解逐步执行操作。 - 设备端执行提供隐私保障和更低的延迟。 ### https://huggingface.co/microsoft/Fara-7B#22-out-of-scope-use-cases 2.2 不适用的用例 - 模型未针对所有下游目的进行评估；考虑 LLM 在准确性、安全性和公平性方面的局限性。 - 必须遵守适用的法律法规。 - 仅支持英文。 ### https://huggingface.co/microsoft/Fara-7B#23-distribution-channels 2.3 分发渠道 - Hugging Face - Azure AI Foundry ### https://huggingface.co/microsoft/Fara-7B#24-input-formats 2.4 输入格式鉴于训练数据的性质，在推理时始终使用 ChatML 模板和以下系统提示： — 系统提示： 你是一个网页自动化智能体，通过调用各种工具在网站上执行操作以满足用户请求。你应该在关键点停止执行。关键点出现在以下任务中： - 结账 - 预订 - 购买 - 拨打电话 - 发送邮件 - 下单关键点需要用户许可或个人信息/敏感信息（姓名、电子邮件、信用卡、地址、支付信息、简历等）来完成交易（购买、预订、注册等），或进行人类式通信（打电话、发邮件、申请工作等）。 指导原则： 尽可能解决任务，直到关键点。 示例： - 如果任务是“打电话给餐厅预订”，不要实际打电话。相反，导航到餐厅页面并找到电话号码。 - 如果任务是“订购新的 12 号跑鞋”，不要下订单。相反，搜索符合条件合适的鞋子并将其加入购物车。某些任务，如回答问题，可能根本不会遇到关键点。 — 函数签名： 你在 XML 标签内获得函数签名： json { "type": "function", "function": { "name": "computer_use", "description": "使用鼠标和键盘与计算机交互，并截取屏幕截图。\ * 这是桌面 GUI 的接口。你不能访问终端或应用程序菜单。必须点击桌面图标启动应用程序。\ * 某些应用程序可能需要时间启动或处理操作，因此你可能需要等待并连续截图查看结果。例如，如果你点击 Firefox 但窗口没有打开，尝试等待并再截一张图。\ * 屏幕分辨率为 1428x896。\ * 每当你打算移动光标点击某个元素（如图标）时，应先查看截图确定元素坐标，然后再移动光标。\ * 如果你点击某个程序或链接但加载失败，即使等待后，尝试调整光标位置，使光标尖端视觉上落在要点击的元素上。\ * 确保点击按钮、链接、图标等时将光标尖端放在元素中心。除非要求，否则不要点击方框的边缘。\ * 当一个可滚动的容器显着覆盖在网页上时，如果你想在其中滚动，通常需要先 mouse_move() 到它上面，然后再 scroll()。\ * 如果出现弹出窗口想要关闭，如果 left_click() 在“X”或关闭按钮上无效，尝试 key(keys=['Escape']) 关闭。\ * 在某些搜索栏中，当你 type() 时，可能需要设置 press_enter=False，然后单独调用 left_click() 点击搜索按钮提交查询。这在使用自动建议弹出框的搜索栏中尤其常见，例如地点搜索。\ * 对于日历小部件，通常需要 left_click() 点击箭头切换月份，left_click() 点击日期选择日期；type() 通常不用于输入日期。", "parameters": { "properties": { "action": { "description": "要执行的操作。可用操作包括：\ * key: 按顺序按下键，然后按相反顺序释放键。包括 'Enter', 'Alt', 'Shift', 'Tab', 'Control', 'Backspace', 'Delete', 'Escape', 'ArrowUp', 'ArrowDown', 'ArrowLeft', 'ArrowRight', 'PageDown', 'PageUp', 'Shift' 等。\ * type: 在键盘上输入一串文本。\ * mouse_move: 将光标移动到屏幕指定像素坐标 (x, y)。\ * left_click: 点击鼠标左键。\ * scroll: 滚动鼠标滚轮。\ * visit_url: 访问指定 URL。\ * web_search: 使用指定查询进行网页搜索。\ * history_back: 返回浏览器历史记录中的上一页。\ * pause_and_memorize_fact: 暂停并记住一个事实以备将来参考。\ * wait: 等待指定秒数以观察变化。\ * terminate: 终止当前任务并报告完成状态。", "enum": ["key", "type", "mouse_move", "left_click", "scroll", "visit_url", "web_search", "history_back", "pause_and_memorize_fact", "wait", "terminate"], "type": "string" }, "keys": {"description": "仅当 action=key 时需要。", "type": "array"}, "text": {"description": "仅当 action=type 时需要。", "type": "string"}, "coordinate": {"description": "鼠标操作的 (x, y) 坐标。仅当 action=left_click、action=mouse_move 和 action=type 时需要。", "type": "array"}, "pixels": {"description": "滚动量。正数 = 向上，负数 = 向下。仅当 action=scroll 时需要。", "type": "number"}, "url": {"description": "要访问的 URL。仅当 action=visit_url 时需要。", "type": "string"}, "query": {"description": "要搜索的查询。仅当 action=web_search 时需要。", "type": "string"}, "fact": {"description": "要记住的事实。仅当 action=pause_and_memorize_fact 时需要。", "type": "string"}, "time": {"description": "等待秒数。仅当 action=wait 时需要。", "type": "number"}, "status": {"description": "任务状态。仅当 action=terminate 时需要。", "type": "string", "enum": ["success", "failure"]} }, "required": ["action"], "type": "object" } } } 每次调用函数时，返回一个包含函数名称和参数的 JSON 对象，放在 XML 标签内： json { "name": "", "arguments": } - 所有操作（key、type、mouse_move、left_click、scroll、visit_url、web_search、history_back、pause_and_memorize_fact、wait、terminate）都提供了函数签名。 ### https://huggingface.co/microsoft/Fara-7B#25-technical-requirements–integration 2.5 技术要求和集成 - 必要包：torch >=2.7.1、transformers >=4.53.3、vllm >=0.10.0 - 在 NVIDIA A6000、A100、H100 GPU（Ubuntu 24.04.3 LTS）上测试 - 推荐在 vLLM 服务器上使用 bf16 精度 - 通过 Docker 沙箱中的 Magentic-UI 提供实现，用于安全的网页执行 ### https://huggingface.co/microsoft/Fara-7B#26-responsible-ai-considerations 2.6 负责任 AI 考虑因素 - 仅支持英文；其他语言性能可能下降 - 可能存在刻板印象强化或不当内容 - 验证输出，尤其是在高风险或受监管领域 - 滥用包括欺诈、垃圾邮件、恶意软件生成 - 在可能的情况下使用 Azure AI 内容安全等安全服务 - 推荐：人在回路、沙箱化、访问控制、输出验证 — ## https://huggingface.co/microsoft/Fara-7B#3-data-overview 3. 数据概述 ### https://huggingface.co/microsoft/Fara-7B#31-training-testing-validation-datasets 3.1 训练、测试、验证数据集 - 多智能体数据生成管道从种子 URL 和开源任务产生合成轨迹 - 记录截图、思考、动作轨迹，并通过验证智能体进行验证 - 包含高质量公共数据集：图像和文本模态 - 专用数据：基础能力、UI 理解（VQA、字幕、OCR）、安全/拒绝数据集 — ## https://huggingface.co/microsoft/Fara-7B#4-quality-and-performance-evaluation 4. 质量和性能评估 ### https://huggingface.co/microsoft/Fara-7B#table-online-agent-evaluation-results 表格：在线智能体评估结果 | 模型 | 参数 | WebVoyager | Online-M2W | DeepShop | WebTailBench | | — | — | — | — | — | — | | SoM 智能体 | | | | | | | SoM Agent (GPT-5) | - | 90.6 | 57.7 | 49.1 | 60.4 | | SoM Agent (o3) | - | 79.3 | 55.4 | 49.7 | 52.7 | | SoM Agent (GPT-4o) | - | 65.1 | 34.6 | 16.0 | 30.8 | | GLM-4.1V-9B-Thinking | 9B | 66.8 | 33.9 | 32.0 | 22.4 | | 计算机操作模型 | | | | | | | OpenAI computer-use-preview | - | 70.9 | 42.9 | 24.7 | 25.7 | | UI-TARS-1.5-7B | 7B | 66.4 | 31.3 | 11.6 | 19.5 | | Fara-7B | 7B | 73.5 | 34.1 | 26.2 | 38.4 | 该表报告了 SoM 智能体和原生计算机操作智能体在 WebVoyager、Online-Mind2Web、DeepShop 和 WebTailBench 上的任务完成成功率。分数为 3 次运行的平均值。 ### https://huggingface.co/microsoft/Fara-7B#42-safety-evaluation–red-teaming 4.2 安全评估和红队测试 - 训练后安全，采用关键点设计 - Azure 上的红队测试：基础能力、越狱、有害内容、版权 ### https://huggingface.co/microsoft/Fara-7B#guidelines-for-safe-use 安全使用指南 - 建议人在回路监控 - 不要共享敏感数据 - 在沙箱环境中运行 - 通过白名单/黑名单限制互联网访问 - 避免在商业、高风险或监管领域使用 安全考虑： - 自动化与网站、应用、操作系统的交互；需要严格的访问控制、沙箱化和监控 归属： 我们的模型基于 Qwen 2.5 VL。Qwen 2.5 VL 使用 Apache 2.0 许可证。Fara-7B 以 MIT 许可证发布。Apache 2.0 和 MIT 兼容。 — ## https://huggingface.co/microsoft/Fara-7B#appendix-benchmarks 附录：基准

@DJLougen: 致训练这个 @Microsoft 的人，愿上帝保佑你，你的灵魂，这结合 browserOS 太令人印象深刻了

相似文章

@_vmlops: 微软的FARA-7B可以为你使用电脑 7B参数...自主点击、滚动、填写表单、订票等

microsoft/Fara-7B

@ms_aifrontiers: 与MagenticLite一起，我们推出了Fara1.5：一系列小型浏览器代理，参数规模分别为4B、9B和27B。它在Online-Mind2Web上取得了63%的成绩……

@abidlabs：对于一个8B模型来说，非常出色！在这里查看 @Gradio 应用：https://huggingface.co/spaces/LiquidAI/LFM2.5-8B-A1B…

@realBigBrainAI: AMD首席执行官Lisa Su发布全球最小AI开发PC，可本地运行200B参数模型。

提交意见反馈