@rsalakhu: 恭喜 @browser_use 团队在 Odysseys（一项极具挑战性的长周期 Web 智能体基准测试）中夺得第一名…

X AI KOLs Following 2026/06/16 20:11 新闻

benchmark web-agents long-horizon browser-use ai-evaluation leaderboard

摘要

browser_use 团队在 Odysseys 基准测试中夺得第一名，这是一项针对长周期 Web 智能体的挑战性评估，其性能超越了 Opus 4.6 和 GPT-5.4 等模型。

祝贺 @browser_use 团队在 Odysseys 中夺得第一名，Odysseys 是一个极具挑战性的长周期 Web 智能体基准测试： https://odysseys-website.pages.dev/leaderboard Odysseys 评估现实世界中需要持续规划、记忆、推理和验证的多个网站和工具的多小时 Web 工作流，远超短期的单步浏览器任务。向着真正有能力的长期智能体迈出了激动人心的一步。

查看原文

查看缓存全文

缓存时间: 2026/06/16 21:40

恭喜 @browser_use 团队在 Odysseys 这一极具挑战性的长周期网络代理基准测试中夺得榜首：

https://odysseys-website.pages.dev/leaderboard

Odysseys 评估了真实世界、耗时数小时的网络工作流程，这些流程需要持续的规划、记忆、推理和验证，跨越众多网站和工具，远非简单的单步浏览器任务。

这是迈向真正强大的长周期代理的令人兴奋的进展。

排行榜 — Odysseys

来源：https://odysseys-website.pages.dev/leaderboard 所有 200 个 Odysseys 任务共有九个条目。我们在统一设置下评估了八个 CUA 模型——100 步预算、最大推理努力、使用 Google Chrome 在 OSWorld Ubuntu 虚拟机中运行。

模型	类型	代理	O‑M2W 评判器	评分平均值	完美度	平均步数	轨迹效率

注释。
评分平均值将每个任务评分对视为独立观测值并取平均值。
完美度标记一个任务为通过，仅当所有评分项都满足。
O‑M2W 评判器是来自 Online‑Mind2Web 的轨迹级整体 LLM 评判器。
平均步数是指代理在每个任务中平均交互步数，数值越低表示效率越高。
轨迹效率 为 (1/N) · Σ si / ni，其中 si 是任务 i 的评分项平均分，ni 是代理步数。数值越高表示在较少步数内获得更强结果。
代理区分 CUA（使用截图并发出 GUI 动作的计算机使用代理）和 Terminal 代理（通过编写代码（例如 Playwright）驱动浏览器）。
标记为 — 的单元格表示来源未报告的指标。CUA 分数来自论文中的表 2；WebWright 来自 WebWright 文章。

按难度划分

任务分为三个等级。简单任务最多使用 5 步和 3 个领域，中等任务使用 6 到 8 步或 4 个或更多领域，困难任务则超出这两个阈值。每个条形显示完美评分率，即模型在每项评分项均满足的情况下解决的任务占比。

步数与完美分数对比

每个模型的完美评分率与其平均每任务步数对比，并叠加帕累托前沿。Opus 4.6 位于该前沿的能力端，而 GPT-5.4 和 GPT-5.4 Mini 则在步数预算与完美率之间进行权衡。每增加一步计算，收益会逐步递减。

散点图：完美评分率 vs 每任务平均步数，带帕累托前沿
图例：Sonnet 4.6 被 Opus 4.6 和 GPT-5.4 两者帕累托支配，后者以更少步数实现了更高完美率。开放权重模型位于前沿内部，花费更多步数却获得显著更低的完美率，指向能力上限而非步数预算不足。

@rsalakhu: 恭喜 @browser_use 团队在 Odysseys（一项极具挑战性的长周期 Web 智能体基准测试）中夺得第一名…

排行榜 — Odysseys

按难度划分

步数与完美分数对比

相似文章

@browser_use: BrowserCode 在长时间运行任务上表现出色，它为我们订了披萨

@gregpr07: Browser Use Beta 刚刚在我们最难的内部网络代理基准测试中实现了 SOTA。Fable 在优化方面确实令人惊叹…

@browser_use: 发布 Browser Use 0.13.0 [beta] > 旧的Browser Use是为GPT-4构建的。 > 这个版本是为SOTA模型构建的。 …

“Browser OS”由Qwen 3.6 35B实现：这是我从本地模型获得的最佳结果

@reagan_hsu：潜在的 Browser Use Desktop(https://github.com/browser-use/desktop…) 用户们好！！如果你用过这款应用，无论喜欢还是…

提交意见反馈