@rsalakhu: 恭喜 @browser_use 团队在 Odysseys(一项极具挑战性的长周期 Web 智能体基准测试)中夺得第一名…
摘要
browser_use 团队在 Odysseys 基准测试中夺得第一名,这是一项针对长周期 Web 智能体的挑战性评估,其性能超越了 Opus 4.6 和 GPT-5.4 等模型。
查看缓存全文
缓存时间: 2026/06/16 21:40
恭喜 @browser_use 团队在 Odysseys 这一极具挑战性的长周期网络代理基准测试中夺得榜首:
https://odysseys-website.pages.dev/leaderboard
Odysseys 评估了真实世界、耗时数小时的网络工作流程,这些流程需要持续的规划、记忆、推理和验证,跨越众多网站和工具,远非简单的单步浏览器任务。
这是迈向真正强大的长周期代理的令人兴奋的进展。
排行榜 — Odysseys
来源:https://odysseys-website.pages.dev/leaderboard 所有 200 个 Odysseys 任务共有九个条目。我们在统一设置下评估了八个 CUA 模型——100 步预算、最大推理努力、使用 Google Chrome 在 OSWorld Ubuntu 虚拟机中运行。
| 模型 | 类型 | 代理 | O‑M2W 评判器 | 评分平均值 | 完美度 | 平均步数 | 轨迹效率 |
|---|
注释。
评分平均值将每个任务评分对视为独立观测值并取平均值。
完美度标记一个任务为通过,仅当所有评分项都满足。
O‑M2W 评判器是来自 Online‑Mind2Web 的轨迹级整体 LLM 评判器。
平均步数是指代理在每个任务中平均交互步数,数值越低表示效率越高。
轨迹效率 为 (1/N) · Σ si / ni,其中 si 是任务 i 的评分项平均分,ni 是代理步数。数值越高表示在较少步数内获得更强结果。
代理区分 CUA(使用截图并发出 GUI 动作的计算机使用代理)和 Terminal 代理(通过编写代码(例如 Playwright)驱动浏览器)。
标记为 — 的单元格表示来源未报告的指标。CUA 分数来自论文中的表 2;WebWright 来自 WebWright 文章。
按难度划分
任务分为三个等级。简单任务最多使用 5 步和 3 个领域,中等任务使用 6 到 8 步或 4 个或更多领域,困难任务则超出这两个阈值。每个条形显示完美评分率,即模型在每项评分项均满足的情况下解决的任务占比。
步数与完美分数对比
每个模型的完美评分率与其平均每任务步数对比,并叠加帕累托前沿。Opus 4.6 位于该前沿的能力端,而 GPT-5.4 和 GPT-5.4 Mini 则在步数预算与完美率之间进行权衡。每增加一步计算,收益会逐步递减。
散点图:完美评分率 vs 每任务平均步数,带帕累托前沿
图例:Sonnet 4.6 被 Opus 4.6 和 GPT-5.4 两者帕累托支配,后者以更少步数实现了更高完美率。开放权重模型位于前沿内部,花费更多步数却获得显著更低的完美率,指向能力上限而非步数预算不足。
相似文章
@browser_use: BrowserCode 在长时间运行任务上表现出色,它为我们订了披萨
BrowserCode 在 Odysseys 基准测试中夺得长时网络智能体第一名,展现了在多小时网络工作流中的强劲性能。
@gregpr07: Browser Use Beta 刚刚在我们最难的内部网络代理基准测试中实现了 SOTA。Fable 在优化方面确实令人惊叹…
Browser Use Beta 在困难的内部网络代理基准测试中取得了先进的结果,使用了 Fable 进行优化和分析。
@browser_use: 发布 Browser Use 0.13.0 [beta] > 旧的Browser Use是为GPT-4构建的。 > 这个版本是为SOTA模型构建的。 …
Browser Use 0.13.0 是完全用Rust重写的,提供了针对最先进模型优化的自定义LLM和浏览器框架,取代了之前以GPT-4为中心的版本。
“Browser OS”由Qwen 3.6 35B实现:这是我从本地模型获得的最佳结果
一位用户报告称,通过Qwen 3.6 35B在本地运行'Browser OS'实现,取得了令人印象深刻的结果,凸显了该模型在不依赖云端的情况下执行复杂任务的能力。
@reagan_hsu:潜在的 Browser Use Desktop(https://github.com/browser-use/desktop…) 用户们好!!如果你用过这款应用,无论喜欢还是…
Browser Use Desktop 是一款用于运行 AI 浏览器智能体的开源应用,支持 Cookie 同步与键盘快捷键,并兼容 Anthropic 和 Codex 模型。