diagnostic

#diagnostic

什么能保存到上下文中：预算受限多跳RAG的诊断方法与子模证据打包的改进时机

arXiv cs.CL ↗ · 2026-07-02 缓存

本文引入了answer-in-context，一种用于预算受限多跳RAG的诊断指标，用于衡量黄金答案是否存在于打包后的读者上下文中，并提出了一种子模证据打包方法，在特定条件下优于启发式方法。

0 人收藏 0 人点赞

#diagnostic

arXiv cs.LG ↗ · 2026-06-26 缓存

本文提出了一种防泄漏诊断方法，通过跨测试样本打乱可靠性分数，来检验质量感知多模态融合方法在推理时是否真的使用了这些分数。在StressID和CMU-MOSEI上的实验表明，打乱后的可靠性分数并未改变性能，说明质量信号仅在能可靠预测单模态正确性时才会影响决策。

0 人收藏 0 人点赞

#diagnostic

arXiv cs.CL ↗ · 2026-06-15 缓存

本文介绍了 MoDiCoL，一个用于鲁棒语音识别的模块化诊断持续学习数据集，能够对语言内容、说话人特征和声学环境进行受控分析，并提出了一个持续学习课程，以研究鲁棒性是如何获取、迁移和遗忘的。

0 人收藏 0 人点赞

#diagnostic

X AI KOLs Following ↗ · 2026-06-01 缓存

ToolFailBench，一个用于评估工具使用型代理的诊断基准，已被两个 ICML 2026 研讨会（FAGEN 和 AIWILD）接收。

0 人收藏 0 人点赞

#diagnostic

X AI KOLs Following ↗ · 2026-05-31

一条推文指出，许多AI认知将足以完成任务，剩余的工作涉及诊断性分类，例如决定是否值得花钱请律师。

0 人收藏 0 人点赞

#diagnostic

arXiv cs.AI ↗ · 2026-05-29 缓存

本文研究了长思维链（CoT）训练轨迹中的一种有害现象，即结论后延续会降低训练效用，并提出了一种名为HarmfulContinuationCut（HCC）的诊断方法来检测此类有害延续。

0 人收藏 0 人点赞

#diagnostic

arXiv cs.LG ↗ · 2026-05-29 缓存

本文将LLM生成的奖励塑形视为稀疏结构化强化学习中的调试问题，识别出奖励泛滥和语义误解等失败模式。作者提出诊断驱动的迭代细化，与一次性生成相比，取得了显著的成功率提升（例如，DoorKey-8×8从2.3%提升至97.6%）。

0 人收藏 0 人点赞

#diagnostic

arXiv cs.LG ↗ · 2026-05-18 缓存

引入SeqMem-Eval，一种用于序列演化LLM记忆的诊断评估框架，测量超越聚合指标的多个维度，揭示适应性与稳定性之间的权衡。

0 人收藏 0 人点赞