@gneubig: SkillsBench 是一个很棒的基准,我这么说不仅仅是因为 @OpenHandsDev 在上面击败了所有其他人。技能……
摘要
SkillsBench 1.1 是一个用于评估 AI 代理使用技能能力的基准,现已完全审计且无错误。
查看缓存全文
缓存时间: 2026/06/18 06:04
SkillsBench 是一个很棒的基准测试,这么说不仅仅是因为 @OpenHandsDev 在它上面击败了其他所有人 😀
技能现在已成为我们定制 AI 代理的事实标准,因此弄清楚模型/代理使用技能的能力变得极其重要。
Xiangyi Li (@xdotli): 使用 AI 基准测试的一个大痛点是在初版发布后遭遇错误。今天,我们发布 SkillsBench 1.1,这是首个衡量 AI 代理使用技能能力的基准测试,现已经过端到端审核,确认无错误。@dawnsongtweets 教授作为顾问加入 1.1 版本。
相似文章
@xdotli: 使用AI基准测试的一大痛点就是在其首次发布后遇到错误。今天,我们发布了SkillsBe…
SkillsBench 1.1已发布,作为首个经过审计、无错误的AI智能体技能基准测试,显示能力从约36%迅速提升至67%的解决率,并证明技能可以替代模型规模。
SkillLearnBench:面向真实任务代理技能生成的持续学习方法基准
SkillLearnBench 推出首个评估 LLM 代理持续技能学习的基准,覆盖 20 项真实任务,结果显示尚无方法全面领先,单纯扩大模型规模也无法保证技能提升。
SkillEvolBench:从情景经验到程序技能的进化基准测试
SkillEvolBench 是一个诊断性基准,用于评估大语言模型代理是否能够将情景经验提炼为可重用的程序技能。它包含六个环境中的180个任务,并发现当前代理通常难以形成稳健的可重用技能,原始轨迹重用往往优于提炼后的技能。
SkillFlow:自主智能体终身技能发现与演化基准测试
SkillFlow 推出了一个涵盖20个任务家族共166项任务的基准测试,用于评估自主智能体在终身学习协议下,随时间推移发现、修复并维护技能的能力。实验揭示了主流模型之间存在显著的能力差距:Claude Opus 4.6 通过技能演化获得了显著提升,而其他模型的收益有限甚至为负。
ProgramBench(5分钟阅读)
ProgramBench 是一项全新的基准测试,用于评估 AI 智能体在无法获取源代码或反编译工具的情况下,仅凭编译后的二进制文件和文档重建完整软件项目的能力。