@TheAhmadOsman:难以置信!理解基准测试与评估的最完整指南,以及为何刻意训练它们具有误导性……

X AI KOLs Following 新闻

摘要

一份全面的免费在线指南现已发布,涵盖机器学习与LLM的基准测试、评估、数据污染及正确实践,强调清洁测量的重要性,避免在测试集上进行误导性训练。

令人难以置信 关于理解基准测试与评估,以及为何刻意训练它们具有误导性的最完整指南现已上线,可免费在线阅读 涵盖基础知识 - 机器学习实际试图衡量什么(泛化 vs 记忆) - 数据角色以及为何必须保持数据集划分的神圣性 - 泄露类型与基准污染 - 为何LLM使得污染问题尤为棘手(网络规模 + 合成数据 + 讨论 + 智能体) - 完整的污染流水线与语义重复 - 关于“在测试集上训练”的实用分类体系 - 为何公共基准会老化、饱和并失效 然后是清洁测量的实践标准 - 针对经典ML与LLM的恰当评估设计 - 协议冻结、排除列表与诚实报告 - 严格的评估前/中/后卫生检查清单 - 2026年严肃LLM评估的标准 - 基准生命周期管理与公共品思维 - 什么不是不可饶恕的罪过,什么是蓄意误导 你应该阅读本文,如果现在没时间,务必收藏以便日后查阅 基准测试/评估/测试集就是标尺。不要弯曲它们。
查看原文
查看缓存全文

缓存时间: 2026/06/11 21:42

不可思议

这份关于理解基准测试(benchmarks)与评估(evals)的最完整指南,以及为何在这些数据上训练具有刻意误导性的论述,现已上线供免费阅读。

涵盖了基础概念:

  • 机器学习真正试图衡量的是什么(泛化 vs 记忆)
  • 数据划分的角色,以及为何必须保持划分的纯洁性
  • 数据泄露类型与基准污染
  • 为什么大语言模型(LLM)让污染问题尤其棘手(网络规模 + 合成数据 + 讨论 + 智能体)
  • 完整的污染链条与语义重复
  • “在测试集上训练”的实际分类
  • 为何公开基准会老化、饱和,并最终失效

然后是清晰测量的实践标准:

  • 针对经典机器学习与大语言模型(LLM)的恰当评估设计
  • 协议冻结、排除清单与诚实报告
  • 严谨的前 / 中 / 后卫生检查清单
  • 2026 年严肃的大语言模型(LLM)评估标准
  • 基准生命周期管理与公共品思维
  • 什么不是不可饶恕的,什么是 刻意误导

你应该阅读这份指南,如果现在没空,那你绝对要将其加入书签,回头再看。

基准 / 评估 / 测试集就是尺子。别去弯曲它。

相似文章

MLE-bench:评估机器学习代理在机器学习工程中的表现

OpenAI Blog

# MLE-bench:评估机器学习代理在机器学习工程中的表现 来源:[https://openai.com/index/mle-bench/](https://openai.com/index/mle-bench/) OpenAI 评估机器学习代理在机器学习工程中的表现 我们推出了 MLE-bench,这是一个用于衡量 AI 代理在机器学习工程中表现如何的基准。为此,我们从 Kaggle 精选了 75 个与 ML 工程相关的竞赛,创建了一个多样化的具有挑战性的任务集合,用于测试真实的 ML 工程

AI模型构建者的不稳定指标与基准测试文化

arXiv cs.AI

本文介绍了Benchmarking-Cultures-25数据集,该数据集分析了AI模型构建者如何在新闻稿中选择性突出基准测试。研究发现评估格局碎片化,跨模型可比性有限,并指出基准测试更多被用作市场定位的叙事工具,而非标准化的科学测量手段。