benchmark-saturation

标签

Cards List
#benchmark-saturation

离线偏好轨迹评估

arXiv cs.LG · 2026-06-17 缓存

本文提出了一种针对智能体系统的离线偏好轨迹评估方法,通过时间偏好而非二元成功指标来比较轨迹。研究表明,该方法将平局比例从约75%降低到35%,从而提升了跨多样化基准的区分能力和数据效率。

0 人收藏 0 人点赞
#benchmark-saturation

BenchEvolver: 基于解决方案进化的前沿任务合成

Hugging Face Daily Papers · 2026-05-31 缓存

BenchEvolver 是一个进化框架,能够自动从现有编程问题中生成更难的题目,创建保持有效性和多样性的挑战性基准,同时支持模型自我改进和提升训练性能。

0 人收藏 0 人点赞
#benchmark-saturation

前沿模型的成长阵痛:当排行榜不再能区分时,接下来该测量什么

arXiv cs.LG · 2026-05-20

本文引入了种群耦合趋势和h场诊断法,分析前沿AI模型在编码与推理能力之间的关系,发现各能力相互协作,但不同实验室侧重点不同。本文提供了测量指南,并预测了基准测试趋于饱和的趋势。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈