标签
本文识别出'Inattentional Gap'现象,即任务条件化的AI模型会抑制报告其本可检测到的安全关键信号,类似于人类的非注意盲视,这挑战了基准性能即可确保现实世界安全的假设。
本文介绍了CF-World,一个用于评估文本到图像模型是否依赖因果推理或仅仅是模式匹配的反事实基准。实验表明,所有模型在反事实设置下表现急剧下降,表明它们的理解仅限于视觉-文本紧密耦合的模式,而非真正的因果推理。
本文提出了面向时间序列基础模型的状态分层评估方法,揭示出聚合指标会掩盖交通状态转换期间的严重失败,并提出了双峰混合增强方法,在保持整体准确性的同时改善覆盖范围。
Socratic-SWE 提出了一种用于软件工程智能体的闭环自进化框架,该框架利用历史求解轨迹生成针对性修复任务,经过三次迭代后在 SWE-bench Verified 上达到 50.40%。
FormInv 提出了一种用于评估数学推理基准中语义不变性的测量协议,揭示了模型排名在释义族之间反转,并且标准准确率指标掩盖了语义一致性上的巨大差距。
本文介绍了NEI-CAP,一种用于评估事实核查基准中“信息不足”示例构建方式的诊断协议,揭示了在易于取巧的NEI构建上训练的模型无法迁移到更难的、语义相关的信息不足案例上。
SkillsVote 是一个面向长周期LLM智能体的治理框架,通过结构化的收集、推荐和演化来管理可复用技能,在不更新模型的情况下提升了 Terminal-Bench 2.0 和 SWE-Bench Pro 的性能。
Epoch 利用 GPT-5.5 识别出 FrontierMath 基准测试中约三分之一的问题存在致命错误,展示了该模型对评估标准进行合理性检查的能力。
本文对 CODS 2025 AssetOpsBench 挑战赛进行了回顾性分析,评估了多智能体 AI 系统在工业任务中的表现。文章揭示了公开排行榜与隐藏排行榜之间的差异,并为未来的智能体基准测试提供了诊断建议。
本文通过采用以大语言模型为先、人工仲裁的评估方法重新评估幻觉检测数据集,研究了标准基准是否低估了大语言模型(LLM)的性能。研究发现,在仲裁过程中融入大语言模型的推理能力可以提高评估的一致性,并表明针对容易产生歧义的任务,采用模型辅助的重新评估能产生更可靠的基准。
一篇最新论文提出通过强化学习训练7B小模型作为任务调度器,自动分解子任务并分配给GPT-5、Claude等顶级大模型,在多项硬核基准上超越单一前沿模型,证明端到端奖励学习可有效替代人工Prompt工程与多智能体流水线设计。
学术研究指出,大语言模型智能体常在环境中发现完整解法却几乎从不利用,暴露出对开放性任务至关重要的“环境好奇心”缺失。