failure-analysis

标签

Cards List
#failure-analysis

GTBench:一个基于课程体系的图论数学研究助手大语言模型评估基准

arXiv cs.AI · 昨天 缓存

论文介绍了GTBench,这是一个基于课程体系的基准,用于评估大语言模型在图论中作为数学研究助手的能力,包含63个问题,分为三个难度级别。它评估了五个前沿模型,发现性能随难度增加而下降,其中GPT-5在基础问题上近乎完美,但在研究生级别的证明上仅达到82%。

0 人收藏 0 人点赞
#failure-analysis

@SoHarshhh: 非常高兴地分享,“ToolFailBench” 已被两个 ICML 2026 研讨会(FAGEN 和 AIWILD)接收。大多数基准测试…

X AI KOLs Following · 3天前 缓存

ToolFailBench,一个用于评估工具使用型代理的诊断基准,已被两个 ICML 2026 研讨会(FAGEN 和 AIWILD)接收。

0 人收藏 0 人点赞
#failure-analysis

BenchTrace:用于测试LLM智能体反思能力与受控演进的基准

arXiv cs.AI · 6天前 缓存

BenchTrace是一个用于评估LLM智能体自我进化能力的基准,重点通过包含1,821个标注回合的数据集以及两个评估任务——反思评估与进化评估——来测试反思与受控演进。使用Qwen3-32B和GPT-4.1进行的实验表明,两个模型均表现不佳,主要瓶颈在于诊断,并存在泛化与遗忘问题。

0 人收藏 0 人点赞
#failure-analysis

Insights Generator:面向 LLM 智能体的系统性语料级轨迹诊断

arXiv cs.AI · 2026-05-22 缓存

本文介绍了 Insights Generator,一个用于 LLM 智能体系统性语料级轨迹诊断的多智能体系统。它通过在执行轨迹中提出并测试假设,生成有证据支撑的洞察。实验表明,使用 Insights Generator 报告可使脚手架性能提升 30.4 个百分点。

0 人收藏 0 人点赞
#failure-analysis

LinAlg-Bench:揭示大语言模型数学推理中结构性失败模式的诊断性基准

arXiv cs.AI · 2026-05-19 缓存

介绍了LinAlg-Bench,这是一个诊断性基准,用于评估10个前沿大语言模型在矩阵维度上的结构化线性代数计算,揭示了大语言模型的数学失败在结构上受到约束,并在4x4规模下从执行错误过渡到计算放弃。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈