failure-analysis

#failure-analysis

GTBench：一个基于课程体系的图论数学研究助手大语言模型评估基准

arXiv cs.AI ↗ · 昨天缓存

论文介绍了GTBench，这是一个基于课程体系的基准，用于评估大语言模型在图论中作为数学研究助手的能力，包含63个问题，分为三个难度级别。它评估了五个前沿模型，发现性能随难度增加而下降，其中GPT-5在基础问题上近乎完美，但在研究生级别的证明上仅达到82%。

0 人收藏 0 人点赞

#failure-analysis

X AI KOLs Following ↗ · 3天前缓存

ToolFailBench，一个用于评估工具使用型代理的诊断基准，已被两个 ICML 2026 研讨会（FAGEN 和 AIWILD）接收。

0 人收藏 0 人点赞

#failure-analysis

arXiv cs.AI ↗ · 6天前缓存

BenchTrace是一个用于评估LLM智能体自我进化能力的基准，重点通过包含1,821个标注回合的数据集以及两个评估任务——反思评估与进化评估——来测试反思与受控演进。使用Qwen3-32B和GPT-4.1进行的实验表明，两个模型均表现不佳，主要瓶颈在于诊断，并存在泛化与遗忘问题。

0 人收藏 0 人点赞

#failure-analysis

arXiv cs.AI ↗ · 2026-05-22 缓存

本文介绍了 Insights Generator，一个用于 LLM 智能体系统性语料级轨迹诊断的多智能体系统。它通过在执行轨迹中提出并测试假设，生成有证据支撑的洞察。实验表明，使用 Insights Generator 报告可使脚手架性能提升 30.4 个百分点。

0 人收藏 0 人点赞

#failure-analysis

arXiv cs.AI ↗ · 2026-05-19 缓存

介绍了LinAlg-Bench，这是一个诊断性基准，用于评估10个前沿大语言模型在矩阵维度上的结构化线性代数计算，揭示了大语言模型的数学失败在结构上受到约束，并在4x4规模下从执行错误过渡到计算放弃。

0 人收藏 0 人点赞