@DJLougen: 致训练这个 @Microsoft 的人,愿上帝保佑你,你的灵魂,这结合 browserOS 太令人印象深刻了

X AI KOLs Timeline 模型

摘要

微软发布了 Fara-7B,一个拥有70亿参数的用于计算机操作的智能小型语言模型,在其规模模型中实现了最先进的性能,并与大型系统竞争。

致训练这个 @Microsoft 的人,愿上帝保佑你,你的灵魂,这结合 browserOS 太令人印象深刻了 https://t.co/a0d39xxqi8
查看原文
查看缓存全文

缓存时间: 2026/05/15 04:56

训练出这个 @Microsoft 模型的人,愿上帝保佑你,这配合 browserOS 实在太强了 https://t.co/a0d39xxqi8 — # microsoft/Fara-7B · Hugging Face 来源:https://huggingface.co/microsoft/Fara-7B ## https://huggingface.co/microsoft/Fara-7B#fara-7b-an-efficient-agentic-model-for-computer-use Fara-7B:一个高效的计算机操作智能体模型 微软(https://aka.ms/msaif/fara) Hugging Face 数据集(https://huggingface.co/datasets/microsoft/WebTailBench) Foundry(https://aka.ms/foundry-fara-7b) GitHub(https://github.com/microsoft/fara) 论文(https://huggingface.co/papers/2511.19663) 微软官方博客(https://www.microsoft.com/en-us/research/?p=1155843&preview=1&_ppp=0a22f3e916) 技术报告(https://aka.ms/fara-techreport) 论文(https://huggingface.co/papers/2511.19663) GitHub(https://github.com/microsoft/fara) 在 Microsoft Foundry 上试用 Fara-7B(https://ai.azure.com/explore/models/Fara-7B/version/1/registry/azureml-msr?tid=72f988bf-86f1-41af-91ab-2d7cd011db47) ## https://huggingface.co/microsoft/Fara-7B#model-summary 模型摘要 开发者: 微软研究院 描述: Fara-7B 是微软首个专门为计算机操作设计的智能体小语言模型(SLM)。仅 70 亿参数,Fara-7B 是一个超紧凑的计算机操作智能体(CUA),在其尺寸类别中达到最先进水平,并且能与更大、更消耗资源的智能体系统竞争。 模型架构: 多模态解码器仅语言模型,接收图像(截图)+ 文本上下文。直接预测带有基于参数的动作和思考。当前生产基线使用 Qwen 2.5-VL(7B)。 参数数量: 70 亿 输入: 用户目标(文本)、当前截图、之前智能体输出历史(思考 + 动作文本)。 上下文长度: 128k 输出: 根据输入生成的文本,包含一个思维链模块,后跟一个工具调用模块以指示动作。 GPU: 64 张 H100 训练时间: 2.5 天 公开数据摘要: 不适用 日期: 训练于 2025 年 10 月 26 日至 2025 年 10 月 29 日 状态: 在公开和私有数据上训练的静态模型 发布日期: 2025 年 11 月 24 日 许可证: MIT 模型依赖: Qwen 2.5 VL 额外资产: 不适用 可接受使用政策: 不适用 — ## https://huggingface.co/microsoft/Fara-7B#1-model-overview 1. 模型概述 Fara 是一个 7B 的计算机操作智能体(CUA)模型,专门用于在网页上执行操作来完成高级用户任务。除了理解网页布局和基本操作机制外,它还能规划并执行高级目标,如预订餐厅、申请工作、规划旅行和购买购物清单。其训练依赖于大规模、完全合成的动作轨迹数据集,这些轨迹由多智能体管道生成并验证。Fara 通过截图感知浏览器输入,而内部推理和状态历史以文本形式记录。基于最近的截图和完整的动作历史,它预测下一个动作及其必要参数(例如,点击的坐标)。 ### https://huggingface.co/microsoft/Fara-7B#11-alignment-approach 1.1 对齐方法 Fara-7B 使用稳健的训练后安全方法,利用开源和内部合成数据集。它集成了关键点识别——需要用户许可或敏感信息的情况——以安全地停止操作。该模型被训练拒绝有害任务,并经过自动红队测试以评估风险,包括基础能力、越狱、有害内容和版权违规。 ### https://huggingface.co/microsoft/Fara-7B#12-safeguards 1.2 安全措施 Fara-7B 被训练拒绝违反使用政策类别的任务: 类型 | 描述 | 示例 — | — | — 非法活动 | 需要非法行为的任务 | 恐怖主义相关搜索、盗版、未经授权的访问、武器制造 欺骗性任务 | 误导或冒充的任务 | 虚假表单、欺诈列表、钓鱼 高风险/受监管领域 | 需要专业监督的任务 | 医疗、法律、财务建议或批准 骚扰、剥削、仇恨 | 伤害或歧视的任务 | 骚扰内容、跟踪、未成年人性化 不安全的 Technical 使用 | 自动化滥用 | 大规模抓取、垃圾邮件、系统破坏 错误信息 | 传播虚假声明 | 发布未经核实的声明 色情 | 色情或色情任务 | 色情角色扮演、色情搜索 智能体停止的关键点包括:输入个人信息、完成购买、打电话、发送电子邮件、提交申请和登录账户。 — ## https://huggingface.co/microsoft/Fara-7B#2-usage 2. 使用 ### https://huggingface.co/microsoft/Fara-7B#sample-usage 示例用法 你可以通过设置环境并托管模型在本地试用 Fara-7B。完整说明请参考 GitHub 仓库(https://github.com/microsoft/fara#installation)。 # 1. 克隆仓库 git clone https://github.com/microsoft/fara.git cd fara # 2. 设置环境 python3 -m venv .venv source .venv/bin/activate pip install -e . playwright install 然后在另一个进程中托管模型: vllm serve "microsoft/Fara-7B" --port 5000 --dtype auto 然后你可以通过以下命令迭代查询: fara-cli --task "whats the weather in new york now" 提示:如果内存不足,可能需要在 vllm 命令中添加 --tensor-parallel-size 2 ### https://huggingface.co/microsoft/Fara-7B#21-primary-use-cases 2.1 主要用例 - 自动化网页任务,如购物、预订旅行、餐厅预订、信息查询或账户工作流。 - 通过浏览器截图的多模态理解逐步执行操作。 - 设备端执行提供隐私保障和更低的延迟。 ### https://huggingface.co/microsoft/Fara-7B#22-out-of-scope-use-cases 2.2 不适用的用例 - 模型未针对所有下游目的进行评估;考虑 LLM 在准确性、安全性和公平性方面的局限性。 - 必须遵守适用的法律法规。 - 仅支持英文。 ### https://huggingface.co/microsoft/Fara-7B#23-distribution-channels 2.3 分发渠道 - Hugging Face - Azure AI Foundry ### https://huggingface.co/microsoft/Fara-7B#24-input-formats 2.4 输入格式 鉴于训练数据的性质,在推理时始终使用 ChatML 模板和以下系统提示: — 系统提示: 你是一个网页自动化智能体,通过调用各种工具在网站上执行操作以满足用户请求。你应该在关键点停止执行。关键点出现在以下任务中: - 结账 - 预订 - 购买 - 拨打电话 - 发送邮件 - 下单 关键点需要用户许可或个人信息/敏感信息(姓名、电子邮件、信用卡、地址、支付信息、简历等)来完成交易(购买、预订、注册等),或进行人类式通信(打电话、发邮件、申请工作等)。 指导原则: 尽可能解决任务,直到关键点示例: - 如果任务是“打电话给餐厅预订”,不要实际打电话。相反,导航到餐厅页面并找到电话号码。 - 如果任务是“订购新的 12 号跑鞋”,不要下订单。相反,搜索符合条件合适的鞋子并将其加入购物车。 某些任务,如回答问题,可能根本不会遇到关键点。 — 函数签名: 你在 XML 标签内获得函数签名: json { "type": "function", "function": { "name": "computer_use", "description": "使用鼠标和键盘与计算机交互,并截取屏幕截图。\ * 这是桌面 GUI 的接口。你不能访问终端或应用程序菜单。必须点击桌面图标启动应用程序。\ * 某些应用程序可能需要时间启动或处理操作,因此你可能需要等待并连续截图查看结果。例如,如果你点击 Firefox 但窗口没有打开,尝试等待并再截一张图。\ * 屏幕分辨率为 1428x896。\ * 每当你打算移动光标点击某个元素(如图标)时,应先查看截图确定元素坐标,然后再移动光标。\ * 如果你点击某个程序或链接但加载失败,即使等待后,尝试调整光标位置,使光标尖端视觉上落在要点击的元素上。\ * 确保点击按钮、链接、图标等时将光标尖端放在元素中心。除非要求,否则不要点击方框的边缘。\ * 当一个可滚动的容器显着覆盖在网页上时,如果你想在其中滚动,通常需要先 mouse_move() 到它上面,然后再 scroll()。\ * 如果出现弹出窗口想要关闭,如果 left_click() 在“X”或关闭按钮上无效,尝试 key(keys=['Escape']) 关闭。\ * 在某些搜索栏中,当你 type() 时,可能需要设置 press_enter=False,然后单独调用 left_click() 点击搜索按钮提交查询。这在使用自动建议弹出框的搜索栏中尤其常见,例如地点搜索。\ * 对于日历小部件,通常需要 left_click() 点击箭头切换月份,left_click() 点击日期选择日期;type() 通常不用于输入日期。", "parameters": { "properties": { "action": { "description": "要执行的操作。可用操作包括:\ * key: 按顺序按下键,然后按相反顺序释放键。包括 'Enter', 'Alt', 'Shift', 'Tab', 'Control', 'Backspace', 'Delete', 'Escape', 'ArrowUp', 'ArrowDown', 'ArrowLeft', 'ArrowRight', 'PageDown', 'PageUp', 'Shift' 等。\ * type: 在键盘上输入一串文本。\ * mouse_move: 将光标移动到屏幕指定像素坐标 (x, y)。\ * left_click: 点击鼠标左键。\ * scroll: 滚动鼠标滚轮。\ * visit_url: 访问指定 URL。\ * web_search: 使用指定查询进行网页搜索。\ * history_back: 返回浏览器历史记录中的上一页。\ * pause_and_memorize_fact: 暂停并记住一个事实以备将来参考。\ * wait: 等待指定秒数以观察变化。\ * terminate: 终止当前任务并报告完成状态。", "enum": ["key", "type", "mouse_move", "left_click", "scroll", "visit_url", "web_search", "history_back", "pause_and_memorize_fact", "wait", "terminate"], "type": "string" }, "keys": {"description": "仅当 action=key 时需要。", "type": "array"}, "text": {"description": "仅当 action=type 时需要。", "type": "string"}, "coordinate": {"description": "鼠标操作的 (x, y) 坐标。仅当 action=left_click、action=mouse_move 和 action=type 时需要。", "type": "array"}, "pixels": {"description": "滚动量。正数 = 向上,负数 = 向下。仅当 action=scroll 时需要。", "type": "number"}, "url": {"description": "要访问的 URL。仅当 action=visit_url 时需要。", "type": "string"}, "query": {"description": "要搜索的查询。仅当 action=web_search 时需要。", "type": "string"}, "fact": {"description": "要记住的事实。仅当 action=pause_and_memorize_fact 时需要。", "type": "string"}, "time": {"description": "等待秒数。仅当 action=wait 时需要。", "type": "number"}, "status": {"description": "任务状态。仅当 action=terminate 时需要。", "type": "string", "enum": ["success", "failure"]} }, "required": ["action"], "type": "object" } } } 每次调用函数时,返回一个包含函数名称和参数的 JSON 对象,放在 XML 标签内: json { "name": "", "arguments": } - 所有操作(keytypemouse_moveleft_clickscrollvisit_urlweb_searchhistory_backpause_and_memorize_factwaitterminate)都提供了函数签名。 ### https://huggingface.co/microsoft/Fara-7B#25-technical-requirements–integration 2.5 技术要求和集成 - 必要包:torch >=2.7.1transformers >=4.53.3vllm >=0.10.0 - 在 NVIDIA A6000、A100、H100 GPU(Ubuntu 24.04.3 LTS)上测试 - 推荐在 vLLM 服务器上使用 bf16 精度 - 通过 Docker 沙箱中的 Magentic-UI 提供实现,用于安全的网页执行 ### https://huggingface.co/microsoft/Fara-7B#26-responsible-ai-considerations 2.6 负责任 AI 考虑因素 - 仅支持英文;其他语言性能可能下降 - 可能存在刻板印象强化或不当内容 - 验证输出,尤其是在高风险或受监管领域 - 滥用包括欺诈、垃圾邮件、恶意软件生成 - 在可能的情况下使用 Azure AI 内容安全等安全服务 - 推荐:人在回路、沙箱化、访问控制、输出验证 — ## https://huggingface.co/microsoft/Fara-7B#3-data-overview 3. 数据概述 ### https://huggingface.co/microsoft/Fara-7B#31-training-testing-validation-datasets 3.1 训练、测试、验证数据集 - 多智能体数据生成管道从种子 URL 和开源任务产生合成轨迹 - 记录截图、思考、动作轨迹,并通过验证智能体进行验证 - 包含高质量公共数据集:图像和文本模态 - 专用数据:基础能力、UI 理解(VQA、字幕、OCR)、安全/拒绝数据集 — ## https://huggingface.co/microsoft/Fara-7B#4-quality-and-performance-evaluation 4. 质量和性能评估 ### https://huggingface.co/microsoft/Fara-7B#table-online-agent-evaluation-results 表格:在线智能体评估结果 | 模型 | 参数 | WebVoyager | Online-M2W | DeepShop | WebTailBench | | — | — | — | — | — | — | | SoM 智能体 | | | | | | | SoM Agent (GPT-5) | - | 90.6 | 57.7 | 49.1 | 60.4 | | SoM Agent (o3) | - | 79.3 | 55.4 | 49.7 | 52.7 | | SoM Agent (GPT-4o) | - | 65.1 | 34.6 | 16.0 | 30.8 | | GLM-4.1V-9B-Thinking | 9B | 66.8 | 33.9 | 32.0 | 22.4 | | 计算机操作模型 | | | | | | | OpenAI computer-use-preview | - | 70.9 | 42.9 | 24.7 | 25.7 | | UI-TARS-1.5-7B | 7B | 66.4 | 31.3 | 11.6 | 19.5 | | Fara-7B | 7B | 73.5 | 34.1 | 26.2 | 38.4 | 该表报告了 SoM 智能体和原生计算机操作智能体在 WebVoyager、Online-Mind2Web、DeepShop 和 WebTailBench 上的任务完成成功率。分数为 3 次运行的平均值。 ### https://huggingface.co/microsoft/Fara-7B#42-safety-evaluation–red-teaming 4.2 安全评估和红队测试 - 训练后安全,采用关键点设计 - Azure 上的红队测试:基础能力、越狱、有害内容、版权 ### https://huggingface.co/microsoft/Fara-7B#guidelines-for-safe-use 安全使用指南 - 建议人在回路监控 - 不要共享敏感数据 - 在沙箱环境中运行 - 通过白名单/黑名单限制互联网访问 - 避免在商业、高风险或监管领域使用 安全考虑: - 自动化与网站、应用、操作系统的交互;需要严格的访问控制、沙箱化和监控 归属: 我们的模型基于 Qwen 2.5 VL。Qwen 2.5 VL 使用 Apache 2.0 许可证。Fara-7B 以 MIT 许可证发布。Apache 2.0 和 MIT 兼容。 — ## https://huggingface.co/microsoft/Fara-7B#appendix-benchmarks 附录:基准

相似文章

microsoft/Fara-7B

Hugging Face Models Trending

微软发布了Fara-7B,这是一个高效的70亿参数智能小型语言模型(SLM),专为计算机使用任务设计,在其参数规模内实现了最先进的性能,并且与更大的系统相比具有竞争力。