benchmark-saturation

#benchmark-saturation

离线偏好轨迹评估

arXiv cs.LG ↗ · 2026-06-17 缓存

本文提出了一种针对智能体系统的离线偏好轨迹评估方法，通过时间偏好而非二元成功指标来比较轨迹。研究表明，该方法将平局比例从约75%降低到35%，从而提升了跨多样化基准的区分能力和数据效率。

0 人收藏 0 人点赞

#benchmark-saturation

Hugging Face Daily Papers ↗ · 2026-05-31 缓存

BenchEvolver 是一个进化框架，能够自动从现有编程问题中生成更难的题目，创建保持有效性和多样性的挑战性基准，同时支持模型自我改进和提升训练性能。

0 人收藏 0 人点赞

#benchmark-saturation

arXiv cs.LG ↗ · 2026-05-20

本文引入了种群耦合趋势和h场诊断法，分析前沿AI模型在编码与推理能力之间的关系，发现各能力相互协作，但不同实验室侧重点不同。本文提供了测量指南，并预测了基准测试趋于饱和的趋势。

0 人收藏 0 人点赞