@gneubig: SkillsBench 是一个很棒的基准,我这么说不仅仅是因为 @OpenHandsDev 在上面击败了所有其他人。技能……

X AI KOLs Following 工具

摘要

SkillsBench 1.1 是一个用于评估 AI 代理使用技能能力的基准,现已完全审计且无错误。

SkillsBench 是一个很棒的基准,我这么说不仅仅是因为 @OpenHandsDev 在上面击败了所有其他人 😀 技能现在已成为我们定制代理的事实标准,因此弄清楚模型/代理是否能够很好地使用它们是极其重要的。
查看原文
查看缓存全文

缓存时间: 2026/06/18 06:04

SkillsBench 是一个很棒的基准测试,这么说不仅仅是因为 @OpenHandsDev 在它上面击败了其他所有人 😀

技能现在已成为我们定制 AI 代理的事实标准,因此弄清楚模型/代理使用技能的能力变得极其重要。

Xiangyi Li (@xdotli): 使用 AI 基准测试的一个大痛点是在初版发布后遭遇错误。今天,我们发布 SkillsBench 1.1,这是首个衡量 AI 代理使用技能能力的基准测试,现已经过端到端审核,确认无错误。@dawnsongtweets 教授作为顾问加入 1.1 版本。

相似文章

SkillEvolBench:从情景经验到程序技能的进化基准测试

Hugging Face Daily Papers

SkillEvolBench 是一个诊断性基准,用于评估大语言模型代理是否能够将情景经验提炼为可重用的程序技能。它包含六个环境中的180个任务,并发现当前代理通常难以形成稳健的可重用技能,原始轨迹重用往往优于提炼后的技能。

SkillFlow:自主智能体终身技能发现与演化基准测试

Hugging Face Daily Papers

SkillFlow 推出了一个涵盖20个任务家族共166项任务的基准测试,用于评估自主智能体在终身学习协议下,随时间推移发现、修复并维护技能的能力。实验揭示了主流模型之间存在显著的能力差距:Claude Opus 4.6 通过技能演化获得了显著提升,而其他模型的收益有限甚至为负。

ProgramBench(5分钟阅读)

TLDR AI

ProgramBench 是一项全新的基准测试,用于评估 AI 智能体在无法获取源代码或反编译工具的情况下,仅凭编译后的二进制文件和文档重建完整软件项目的能力。