@rsalakhu: 恭喜 @browser_use 团队在 Odysseys(一项极具挑战性的长周期 Web 智能体基准测试)中夺得第一名…

X AI KOLs Following 新闻

摘要

browser_use 团队在 Odysseys 基准测试中夺得第一名,这是一项针对长周期 Web 智能体的挑战性评估,其性能超越了 Opus 4.6 和 GPT-5.4 等模型。

祝贺 @browser_use 团队在 Odysseys 中夺得第一名,Odysseys 是一个极具挑战性的长周期 Web 智能体基准测试: https://odysseys-website.pages.dev/leaderboard Odysseys 评估现实世界中需要持续规划、记忆、推理和验证的多个网站和工具的多小时 Web 工作流,远超短期的单步浏览器任务。 向着真正有能力的长期智能体迈出了激动人心的一步。
查看原文
查看缓存全文

缓存时间: 2026/06/16 21:40

恭喜 @browser_use 团队在 Odysseys 这一极具挑战性的长周期网络代理基准测试中夺得榜首:

https://odysseys-website.pages.dev/leaderboard

Odysseys 评估了真实世界、耗时数小时的网络工作流程,这些流程需要持续的规划、记忆、推理和验证,跨越众多网站和工具,远非简单的单步浏览器任务。

这是迈向真正强大的长周期代理的令人兴奋的进展。


排行榜 — Odysseys

来源:https://odysseys-website.pages.dev/leaderboard 所有 200 个 Odysseys 任务共有九个条目。我们在统一设置下评估了八个 CUA 模型——100 步预算、最大推理努力、使用 Google Chrome 在 OSWorld Ubuntu 虚拟机中运行。

模型类型代理O‑M2W 评判器评分平均值完美度平均步数轨迹效率

注释。
评分平均值将每个任务评分对视为独立观测值并取平均值。
完美度标记一个任务为通过,仅当所有评分项都满足。
O‑M2W 评判器是来自 Online‑Mind2Web 的轨迹级整体 LLM 评判器。
平均步数是指代理在每个任务中平均交互步数,数值越低表示效率越高。
轨迹效率(1/N) · Σ si / ni,其中 si 是任务 i 的评分项平均分,ni 是代理步数。数值越高表示在较少步数内获得更强结果。
代理区分 CUA(使用截图并发出 GUI 动作的计算机使用代理)和 Terminal 代理(通过编写代码(例如 Playwright)驱动浏览器)。
标记为 — 的单元格表示来源未报告的指标。CUA 分数来自论文中的表 2;WebWright 来自 WebWright 文章。

按难度划分

任务分为三个等级。简单任务最多使用 5 步和 3 个领域,中等任务使用 6 到 8 步或 4 个或更多领域,困难任务则超出这两个阈值。每个条形显示完美评分率,即模型在每项评分项均满足的情况下解决的任务占比。

步数与完美分数对比

每个模型的完美评分率与其平均每任务步数对比,并叠加帕累托前沿。Opus 4.6 位于该前沿的能力端,而 GPT-5.4 和 GPT-5.4 Mini 则在步数预算与完美率之间进行权衡。每增加一步计算,收益会逐步递减。

散点图:完美评分率 vs 每任务平均步数,带帕累托前沿
图例:Sonnet 4.6 被 Opus 4.6 和 GPT-5.4 两者帕累托支配,后者以更少步数实现了更高完美率。开放权重模型位于前沿内部,花费更多步数却获得显著更低的完美率,指向能力上限而非步数预算不足。

相似文章