@alexwan55: 40%的基准测试工作集中在数学/编码领域,但相关职业仅占美国工作岗位的3.5%。我们推出了Econ…
摘要
介绍EconEvals,一个开源评估套件,用于衡量AI能力并预测全美劳动力经济中的就业冲击,解决了基准测试重点(数学/编码)与实际岗位分布之间的错位。
查看缓存全文
缓存时间: 2026/06/26 10:09
40%的基准测试工作聚焦于数学和编程,但相关职业仅占美国就业岗位的3.5%。
我们推出开源评估套件EconEvals,用于衡量能力并预测美国劳动经济中职业受冲击的情况。https://t.co/wxQykhUqCI
相似文章
并非每项评估都需要运行
这篇研究论文表明,前沿AI模型在133个基准测试上的得分近似于秩为2,即仅两个潜在因素就解释了超过90%的方差。作者提出了BenchPress,一种在logit空间中进行矩阵补全的方法,仅需少数几个基准测试就能预测模型的完整得分表,从而显著降低评估成本。
衡量我们的模型在实际任务中的性能
OpenAI 推出 GDPval,这是一个新的评估框架,用于衡量 AI 模型在涵盖美国 GDP 贡献最高的 9 个行业中 44 个职业的经济价值任务上的表现。该基准包括 1,320 个基于实际专业工作产物的专业化任务,代表了从学术基准向更现实的职业评估的进步。
@OpenAI: 我们来聊聊评估。我们一直在寻找更好的方法来衡量和预测模型的进展,尤其是在基准测试...
OpenAI讨论了评估(evals)的重要性,用于衡量和预测模型进展,尤其是在基准测试变得饱和或被操纵的情况下,并邀请了Tejal Patwardhan和Andrew Mayne分享见解。
BEAMS: AI在建模与仿真中的基准测试与评估
BEAMS倡议提出了一套基准测试集,用于评估建模与仿真中的AI工具,重点关注以人为本和负责任的AI实践。测试显示,基于LLM的引擎存在差异,在定性任务上的表现优于因果推理。
AI模型构建者的不稳定指标与基准测试文化
本文介绍了Benchmarking-Cultures-25数据集,该数据集分析了AI模型构建者如何在新闻稿中选择性突出基准测试。研究发现评估格局碎片化,跨模型可比性有限,并指出基准测试更多被用作市场定位的叙事工具,而非标准化的科学测量手段。