@TheAhmadOsman:难以置信!理解基准测试与评估的最完整指南,以及为何刻意训练它们具有误导性……
摘要
一份全面的免费在线指南现已发布,涵盖机器学习与LLM的基准测试、评估、数据污染及正确实践,强调清洁测量的重要性,避免在测试集上进行误导性训练。
查看缓存全文
缓存时间: 2026/06/11 21:42
不可思议
这份关于理解基准测试(benchmarks)与评估(evals)的最完整指南,以及为何在这些数据上训练具有刻意误导性的论述,现已上线供免费阅读。
涵盖了基础概念:
- 机器学习真正试图衡量的是什么(泛化 vs 记忆)
- 数据划分的角色,以及为何必须保持划分的纯洁性
- 数据泄露类型与基准污染
- 为什么大语言模型(LLM)让污染问题尤其棘手(网络规模 + 合成数据 + 讨论 + 智能体)
- 完整的污染链条与语义重复
- “在测试集上训练”的实际分类
- 为何公开基准会老化、饱和,并最终失效
然后是清晰测量的实践标准:
- 针对经典机器学习与大语言模型(LLM)的恰当评估设计
- 协议冻结、排除清单与诚实报告
- 严谨的前 / 中 / 后卫生检查清单
- 2026 年严肃的大语言模型(LLM)评估标准
- 基准生命周期管理与公共品思维
- 什么不是不可饶恕的,什么是 刻意误导
你应该阅读这份指南,如果现在没空,那你绝对要将其加入书签,回头再看。
基准 / 评估 / 测试集就是尺子。别去弯曲它。
相似文章
@TheAhmadOsman: https://x.com/TheAhmadOsman/status/2064724789952958663
详细解释了为什么在基准测试、评估集或测试集上进行训练是机器学习中的大忌,这会破坏衡量泛化能力的能力。文章强调了干净的评估协议的重要性,并警告不要进行“benchmaxxing”。
MLE-bench:评估机器学习代理在机器学习工程中的表现
# MLE-bench:评估机器学习代理在机器学习工程中的表现 来源:[https://openai.com/index/mle-bench/](https://openai.com/index/mle-bench/) OpenAI 评估机器学习代理在机器学习工程中的表现 我们推出了 MLE-bench,这是一个用于衡量 AI 代理在机器学习工程中表现如何的基准。为此,我们从 Kaggle 精选了 75 个与 ML 工程相关的竞赛,创建了一个多样化的具有挑战性的任务集合,用于测试真实的 ML 工程
MLS-Bench:对 AI 系统在构建更优 AI 方面能力的全面与严格评估
本文介绍了 MLS-Bench,这是一个旨在评估 AI 系统能否发明具有通用性和可扩展性的机器学习方法,而非仅仅进行工程调优的基准测试。
AI模型构建者的不稳定指标与基准测试文化
本文介绍了Benchmarking-Cultures-25数据集,该数据集分析了AI模型构建者如何在新闻稿中选择性突出基准测试。研究发现评估格局碎片化,跨模型可比性有限,并指出基准测试更多被用作市场定位的叙事工具,而非标准化的科学测量手段。
@dkare1009: 大多数AI工程师从零散的博客文章和过时的教程中学习。一本指南书刚刚将一切整合在一起。T…
一本新的综合性AI工程指南书整合了关于LLM基础、微调、RAG、智能体系统和部署的知识,旨在帮助工程师构建可投产的AI系统。