@SoHarshhh: 非常高兴地分享，“ToolFailBench” 已被两个 ICML 2026 研讨会（FAGEN 和 AIWILD）接收。大多数基准测试…

X AI KOLs Following 2026/06/01 00:28 论文

benchmark tool-use agent-evaluation failure-analysis workshop-acceptance icml diagnostic

摘要

ToolFailBench，一个用于评估工具使用型代理的诊断基准，已被两个 ICML 2026 研讨会（FAGEN 和 AIWILD）接收。

非常高兴地分享，“ToolFailBench” 已被两个 ICML 2026 研讨会（FAGEN 和 AIWILD）接收。大多数基准测试使用单一的成功率总和来评估工具使用型代理，但那个数字无法解释模型实际失败的原因。ToolFailBench 是一个诊断性基准 https://t.co/UCKA2H29Aw

查看原文

查看缓存全文

缓存时间: 2026/06/01 11:20

非常高兴地分享——“ToolFailBench”已被ICML 2026的两个研讨会FAGEN和AIWILD接收。

大多数基准测试用一个单一的总体成功率来评估工具使用型智能体，但这个数字无法解释模型实际上为何失败。ToolFailBench是一个诊断工具。https://t.co/UCKA2H29Aw

相似文章

超越函数调用：在工具环境不可靠性下对工具使用代理进行基准测试

arXiv cs.CL

介绍ToolBench-X，这是一个基准测试，用于评估各种工具环境可靠性隐患下的大语言模型代理，揭示了与干净环境相比性能上的显著差距。

TOBench：面向真实世界工具使用智能体的任务导向全模态基准

arXiv cs.AI

TOBench是一个新的基准测试，用于评估AI智能体在真实世界、任务导向的工具使用中的表现，涉及多模态输入和闭环验证。实验表明，像Qwen 3.5 Plus这样的顶级模型仅达到41%的成功率，远低于94%的人类基准，凸显了显著的差距。

@xdotli: 使用AI基准测试的一大痛点就是在其首次发布后遇到错误。今天，我们发布了SkillsBe…

X AI KOLs Following

SkillsBench 1.1已发布，作为首个经过审计、无错误的AI智能体技能基准测试，显示能力从约36%迅速提升至67%的解决率，并证明技能可以替代模型规模。

@steverab：非常激动地分享，我们的论文《迈向AI智能体可靠性科学》已被ICML 2026接收！首尔见……

X AI KOLs Timeline

一篇分析AI智能体可靠性的论文，已被ICML 2026接收。研究发现，即使是最新的前沿模型（GPT 5.5、Gemini 3.1 Pro、Claude Opus 4.7），相较于早期版本也仅有微小的可靠性提升，结果一致性较低，且智能体框架中依然存在持续性问题。

MLS-Bench：对 AI 系统在构建更优 AI 方面能力的全面与严格评估

Hugging Face Daily Papers

本文介绍了 MLS-Bench，这是一个旨在评估 AI 系统能否发明具有通用性和可扩展性的机器学习方法，而非仅仅进行工程调优的基准测试。