diagnostic

标签

Cards List
#diagnostic

@SoHarshhh: 非常高兴地分享,“ToolFailBench” 已被两个 ICML 2026 研讨会(FAGEN 和 AIWILD)接收。大多数基准测试…

X AI KOLs Following · 3天前 缓存

ToolFailBench,一个用于评估工具使用型代理的诊断基准,已被两个 ICML 2026 研讨会(FAGEN 和 AIWILD)接收。

0 人收藏 0 人点赞
#diagnostic

@patio11: 那大部分认知对于手头的任务来说是完全足够的。其余部分中的一些将是重要的诊…

X AI KOLs Following · 3天前

一条推文指出,许多AI认知将足以完成任务,剩余的工作涉及诊断性分类,例如决定是否值得花钱请律师。

0 人收藏 0 人点赞
#diagnostic

在答案正确的长CoT训练轨迹中诊断有害延续

arXiv cs.AI · 6天前 缓存

本文研究了长思维链(CoT)训练轨迹中的一种有害现象,即结论后延续会降低训练效用,并提出了一种名为HarmfulContinuationCut(HCC)的诊断方法来检测此类有害延续。

0 人收藏 0 人点赞
#diagnostic

当LLM奖励设计失败:稀疏结构化强化学习的诊断驱动细化

arXiv cs.LG · 6天前 缓存

本文将LLM生成的奖励塑形视为稀疏结构化强化学习中的调试问题,识别出奖励泛滥和语义误解等失败模式。作者提出诊断驱动的迭代细化,与一次性生成相比,取得了显著的成功率提升(例如,DoorKey-8×8从2.3%提升至97.6%)。

0 人收藏 0 人点赞
#diagnostic

一个分数就够了吗?重新思考序列演化LLM记忆的评价

arXiv cs.LG · 2026-05-18 缓存

引入SeqMem-Eval,一种用于序列演化LLM记忆的诊断评估框架,测量超越聚合指标的多个维度,揭示适应性与稳定性之间的权衡。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈