@rohanpaul_ai: ByteDance Seed 再次发力。他们发布了 EdgeBench，用于测试AI代理能否通过经验提升，使用…

X AI KOLs Timeline 2026/07/03 00:15 工具

bytedance-seed edgebench benchmark ai-agents evaluation real-world-tasks learning

摘要

字节跳动 Seed 发布了 EdgeBench，这是一个基准测试，用于测试AI代理能否通过执行超过12小时的现实世界任务来从经验中提升，将评估从静态知识转向动态学习。

字节跳动 Seed 再次发力。他们发布了 EdgeBench，用于测试AI代理能否通过经验提升，使用134个至少运行12小时的现实世界任务。关键在于，它将AI评估从“模型已经知道什么？”转变为“模型能否在实际工作中学习？” 意义重大，因为未来的AI代理不仅会从训练数据中回答问题。它们将进入混乱的环境，使用工具，进行尝试，读取反馈，修正错误，并逐步构建更好的解决方案。目前大多数基准测试时间太短，因此它们主要测试记忆、编码技能或一次性推理。而 EdgeBench 则给代理提供带有反馈循环的12小时现实世界任务，因此它可以衡量代理是否通过经验提升。每个任务都有一个本地工作空间用于快速试错，外加一个隐藏的评判者，对提交的工作给予更强的反馈，旨在更接近真实专家的工作。随后，作者运行了前沿代理，总计约38,000小时，并跟踪它们的最佳得分如何随着不断与任务环境交互而变化。主要结果是，当对多个任务的得分进行平均时，学习遵循一条非常清晰的log-sigmoid曲线，意味着进展先慢后快，然后开始趋于平稳。他们还发现，较新的代理似乎从环境中学习得更快，顶尖模型大约每3个月将其2小时学习速度翻一番。

查看原文

查看缓存全文

缓存时间: 2026/07/03 02:28

字节跳动Seed又出手了。

他们发布了EdgeBench，用于测试AI智能体能否通过经验实现改进，涵盖134项至少运行12小时的真实世界任务。

关键在于，它将AI评估从“模型已经知道什么？“转向“模型能在实际工作中边做边学吗？”

这意义重大，因为未来AI智能体不仅会从训练数据中回答问题。它们将进入混乱环境，使用工具，尝试操作，读取反馈，修正错误，并逐步构建更优解决方案。

目前大多数基准测试时间过短，因此主要测试的是记忆、编码技能或一次性推理能力。

而EdgeBench为智能体提供12小时的真实世界任务，并内置反馈循环，从而衡量智能体是否通过经验实现改进。

每个任务都有一个本地工作空间用于快速试错，外加一个隐藏评审器，对提交的工作给予更强反馈，旨在更接近真实专家工作场景。

作者随后让前沿智能体运行了总计约38,000小时，并追踪其最佳得分如何随着与任务环境的持续交互而变化。

主要结果是：当跨多个任务对得分取平均时，学习过程遵循一条非常清晰的log-sigmoid曲线，即进步先缓慢、后加速、最终趋于平稳。

他们还发现，较新的智能体似乎能更快地从环境中学习，顶级模型每3个月将其2小时学习速度大约翻一番。

博客：https://edge-bench.org
论文：https://edge-bench.org/paper.pdf
GitHub：https://github.com/ByteDance-Seed/EdgeBench…
数据集：https://huggingface.co/datasets/ByteDance-Seed/EdgeBench…

EdgeBench涵盖科学、软件工程、优化、专业工作、形式化数学和游戏等领域的134项长期真实世界任务。

关键在于，作者试图衡量智能体在多种工作中从反馈中学习的一般能力，而非在单一领域或短时一次性任务上的表现。

EdgeBench让智能体在任务中学习的方式如下：它们可以在本地环境中不断测试想法，然后将工作提交给隐藏评审器以获取更强反馈。

关键在于，该基准测试围绕真实的反馈循环构建，衡量的是智能体能否通过试错和修订实现改进，而不仅仅是输出一个最终答案。

下图展示了“运行中学习“的实际效果：智能体从一个粗略的引力波重建开始，然后在12小时内通过多次不同的发现逐步改进。

关键在于，EdgeBench衡量的是真正的迭代式进步——反馈帮助智能体找到更好的结构、修复瓶颈，并将其得分从42.8提升至67.0，而不仅仅是进行更多随机尝试。

@rohanpaul_ai: ByteDance Seed 再次发力。他们发布了 EdgeBench，用于测试AI代理能否通过经验提升，使用…

相似文章

@_TobiasLee: 来自字节跳动的 Seed 2.1 在我们两项基准测试中取得了令人瞩目的成绩。Claw-Eval (多模态，https://claw-eval.…

@xdotli: 使用AI基准测试的一大痛点就是在其首次发布后遇到错误。今天，我们发布了SkillsBe…

@rohanpaul_ai: 当前前沿智能体在现实自动化方面的准备程度远不及它们在基准测试中的分数所暗示的那样。本文提…

Seed2.1 发布

@Radha_AI：中国刚刚推出了一位永不休眠的 AI 员工。它能做研究、写代码、建网站、做幻灯片，还能生成……

提交意见反馈