benchmark-evaluation

#benchmark-evaluation

The Inattentional Gap: 任务条件化的语言与视觉模型会忽略本可报告的安全关键信号

arXiv cs.CL ↗ · 2天前缓存

本文识别出'Inattentional Gap'现象，即任务条件化的AI模型会抑制报告其本可检测到的安全关键信号，类似于人类的非注意盲视，这挑战了基准性能即可确保现实世界安全的假设。

0 人收藏 0 人点赞

#benchmark-evaluation

文本到图像模型是归纳主义火鸡吗？一个用于因果推理的反事实基准

Hugging Face Daily Papers ↗ · 5天前缓存

本文介绍了CF-World，一个用于评估文本到图像模型是否依赖因果推理或仅仅是模式匹配的反事实基准。实验表明，所有模型在反事实设置下表现急剧下降，表明它们的理解仅限于视觉-文本紧密耦合的模式，而非真正的因果推理。

0 人收藏 0 人点赞

#benchmark-evaluation

时间序列基础模型基准测试是否隐藏了依赖状态的失败？来自交通速度预测的证据

arXiv cs.LG ↗ · 2026-06-18 缓存

本文提出了面向时间序列基础模型的状态分层评估方法，揭示出聚合指标会掩盖交通状态转换期间的严重失败，并提出了双峰混合增强方法，在保持整体准确性的同时改善覆盖范围。

0 人收藏 0 人点赞

#benchmark-evaluation

Socratic-SWE：基于轨迹派生的智能体技能实现自进化编码智能体

Hugging Face Daily Papers ↗ · 2026-06-05 缓存

Socratic-SWE 提出了一种用于软件工程智能体的闭环自进化框架，该框架利用历史求解轨迹生成针对性修复任务，经过三次迭代后在 SWE-bench Verified 上达到 50.40%。

0 人收藏 0 人点赞

#benchmark-evaluation

FormInv：数学推理基准中语义不变性的测量协议

arXiv cs.LG ↗ · 2026-05-29 缓存

FormInv 提出了一种用于评估数学推理基准中语义不变性的测量协议，揭示了模型排名在释义族之间反转，并且标准准确率指标掩盖了语义一致性上的巨大差距。

0 人收藏 0 人点赞

#benchmark-evaluation

证据缺失并非证据不足：事实核查中NEI构建伪影的诊断

arXiv cs.CL ↗ · 2026-05-27 缓存

本文介绍了NEI-CAP，一种用于评估事实核查基准中“信息不足”示例构建方式的诊断协议，揭示了在易于取巧的NEI构建上训练的模型无法迁移到更难的、语义相关的信息不足案例上。

0 人收藏 0 人点赞

#benchmark-evaluation

SkillsVote：从收集、推荐到演化的智能体技能生命周期治理

Hugging Face Daily Papers ↗ · 2026-05-18 缓存

SkillsVote 是一个面向长周期LLM智能体的治理框架，通过结构化的收集、推荐和演化来管理可复用技能，在不更新模型的情况下提升了 Terminal-Bench 2.0 和 SWE-Bench Pro 的性能。

0 人收藏 0 人点赞

#benchmark-evaluation

GPT-5.5 被用于标记 FrontierMath 问题中的致命错误

Reddit r/singularity ↗ · 2026-05-12

Epoch 利用 GPT-5.5 识别出 FrontierMath 基准测试中约三分之一的问题存在致命错误，展示了该模型对评估标准进行合理性检查的能力。

0 人收藏 0 人点赞

#benchmark-evaluation

CODS 2025 AssetOpsBench 挑战赛结果及回顾性分析

arXiv cs.AI ↗ · 2026-05-12 缓存

本文对 CODS 2025 AssetOpsBench 挑战赛进行了回顾性分析，评估了多智能体 AI 系统在工业任务中的表现。文章揭示了公开排行榜与隐藏排行榜之间的差异，并为未来的智能体基准测试提供了诊断建议。

0 人收藏 0 人点赞

#benchmark-evaluation

基准是否低估了 LLM 的性能？采用以大语言模型为先、人工仲裁的评估方法评估幻觉检测

arXiv cs.CL ↗ · 2026-05-12 缓存

本文通过采用以大语言模型为先、人工仲裁的评估方法重新评估幻觉检测数据集，研究了标准基准是否低估了大语言模型（LLM）的性能。研究发现，在仲裁过程中融入大语言模型的推理能力可以提高评估的一致性，并表明针对容易产生歧义的任务，采用模型辅助的重新评估能产生更可靠的基准。

0 人收藏 0 人点赞

#benchmark-evaluation

@berryxia: 小块有大智慧？这下真成真了！ 7B小模型现在直接当上了GPT-5、Claude Sonnet 4、Gemini 2.5 Pro这些顶级大模型的老板。一篇最新论文里，一个用强化学习训练的7B模型学会了写自然语言子任务、分配给不同大模型、精…

X AI KOLs Timeline ↗ · 2026-05-11

一篇最新论文提出通过强化学习训练7B小模型作为任务调度器，自动分解子任务并分配给GPT-5、Claude等顶级大模型，在多项硬核基准上超越单一前沿模型，证明端到端奖励学习可有效替代人工Prompt工程与多智能体流水线设计。

0 人收藏 0 人点赞

#benchmark-evaluation

智能体会探索却无视：大语言模型缺乏环境好奇心

Hugging Face Daily Papers ↗ · 2026-04-19 缓存

学术研究指出，大语言模型智能体常在环境中发现完整解法却几乎从不利用，暴露出对开放性任务至关重要的“环境好奇心”缺失。

0 人收藏 0 人点赞

benchmark-evaluation

提交意见反馈