@rohanpaul_ai: ByteDance Seed 再次发力。他们发布了 EdgeBench,用于测试AI代理能否通过经验提升,使用…
摘要
字节跳动 Seed 发布了 EdgeBench,这是一个基准测试,用于测试AI代理能否通过执行超过12小时的现实世界任务来从经验中提升,将评估从静态知识转向动态学习。
查看缓存全文
缓存时间: 2026/07/03 02:28
字节跳动Seed又出手了。
他们发布了EdgeBench,用于测试AI智能体能否通过经验实现改进,涵盖134项至少运行12小时的真实世界任务。
关键在于,它将AI评估从“模型已经知道什么?“转向“模型能在实际工作中边做边学吗?”
这意义重大,因为未来AI智能体不仅会从训练数据中回答问题。它们将进入混乱环境,使用工具,尝试操作,读取反馈,修正错误,并逐步构建更优解决方案。
目前大多数基准测试时间过短,因此主要测试的是记忆、编码技能或一次性推理能力。
而EdgeBench为智能体提供12小时的真实世界任务,并内置反馈循环,从而衡量智能体是否通过经验实现改进。
每个任务都有一个本地工作空间用于快速试错,外加一个隐藏评审器,对提交的工作给予更强反馈,旨在更接近真实专家工作场景。
作者随后让前沿智能体运行了总计约38,000小时,并追踪其最佳得分如何随着与任务环境的持续交互而变化。
主要结果是:当跨多个任务对得分取平均时,学习过程遵循一条非常清晰的log-sigmoid曲线,即进步先缓慢、后加速、最终趋于平稳。
他们还发现,较新的智能体似乎能更快地从环境中学习,顶级模型每3个月将其2小时学习速度大约翻一番。
博客:https://edge-bench.org
论文:https://edge-bench.org/paper.pdf
GitHub:https://github.com/ByteDance-Seed/EdgeBench…
数据集:https://huggingface.co/datasets/ByteDance-Seed/EdgeBench…
EdgeBench涵盖科学、软件工程、优化、专业工作、形式化数学和游戏等领域的134项长期真实世界任务。
关键在于,作者试图衡量智能体在多种工作中从反馈中学习的一般能力,而非在单一领域或短时一次性任务上的表现。
EdgeBench让智能体在任务中学习的方式如下:它们可以在本地环境中不断测试想法,然后将工作提交给隐藏评审器以获取更强反馈。
关键在于,该基准测试围绕真实的反馈循环构建,衡量的是智能体能否通过试错和修订实现改进,而不仅仅是输出一个最终答案。
下图展示了“运行中学习“的实际效果:智能体从一个粗略的引力波重建开始,然后在12小时内通过多次不同的发现逐步改进。
关键在于,EdgeBench衡量的是真正的迭代式进步——反馈帮助智能体找到更好的结构、修复瓶颈,并将其得分从42.8提升至67.0,而不仅仅是进行更多随机尝试。
相似文章
@_TobiasLee: 来自字节跳动的 Seed 2.1 在我们两项基准测试中取得了令人瞩目的成绩。Claw-Eval (多模态,https://claw-eval.…
字节跳动的 Seed 2.1 模型在多模态智能体(Claw-Eval)和长视频理解(Video-MME)基准测试中取得了强劲的结果,尽管在感知和智能体能力之间仍存在差距。
@xdotli: 使用AI基准测试的一大痛点就是在其首次发布后遇到错误。今天,我们发布了SkillsBe…
SkillsBench 1.1已发布,作为首个经过审计、无错误的AI智能体技能基准测试,显示能力从约36%迅速提升至67%的解决率,并证明技能可以替代模型规模。
@rohanpaul_ai: 当前前沿智能体在现实自动化方面的准备程度远不及它们在基准测试中的分数所暗示的那样。本文提…
本文介绍了“智能体最终考试”(Agents' Last Exam),这是一个测试AI智能体在55个数字工作领域中进行真实专家工作能力的基准。目前最强的智能体在大多数任务上失败,在最难的层级中平均通过率仅为2.6%,揭示了基准分数与现实世界自动化准备程度之间的巨大差距。
Seed2.1 发布
字节跳动发布了新 AI 模型 Seed2.1,并附有博客文章和模型卡。
@Radha_AI:中国刚刚推出了一位永不休眠的 AI 员工。它能做研究、写代码、建网站、做幻灯片,还能生成……
ByteDance 发布 DeerFlow 2.0,这是一个开源 AI Agent 框架,支持在本地执行编程、研究和内容生成等任务,无需依赖云端或订阅服务。