@TheAhmadOsman：难以置信！理解基准测试与评估的最完整指南，以及为何刻意训练它们具有误导性……

X AI KOLs Following 2026/06/11 20:43 新闻

benchmarks evals contamination machine-learning llm guide

摘要

一份全面的免费在线指南现已发布，涵盖机器学习与LLM的基准测试、评估、数据污染及正确实践，强调清洁测量的重要性，避免在测试集上进行误导性训练。

令人难以置信关于理解基准测试与评估，以及为何刻意训练它们具有误导性的最完整指南现已上线，可免费在线阅读涵盖基础知识 - 机器学习实际试图衡量什么（泛化 vs 记忆） - 数据角色以及为何必须保持数据集划分的神圣性 - 泄露类型与基准污染 - 为何LLM使得污染问题尤为棘手（网络规模 + 合成数据 + 讨论 + 智能体） - 完整的污染流水线与语义重复 - 关于“在测试集上训练”的实用分类体系 - 为何公共基准会老化、饱和并失效然后是清洁测量的实践标准 - 针对经典ML与LLM的恰当评估设计 - 协议冻结、排除列表与诚实报告 - 严格的评估前/中/后卫生检查清单 - 2026年严肃LLM评估的标准 - 基准生命周期管理与公共品思维 - 什么不是不可饶恕的罪过，什么是蓄意误导你应该阅读本文，如果现在没时间，务必收藏以便日后查阅基准测试/评估/测试集就是标尺。不要弯曲它们。

查看原文

查看缓存全文

缓存时间: 2026/06/11 21:42

不可思议

这份关于理解基准测试（benchmarks）与评估（evals）的最完整指南，以及为何在这些数据上训练具有刻意误导性的论述，现已上线供免费阅读。

涵盖了基础概念：

机器学习真正试图衡量的是什么（泛化 vs 记忆）
数据划分的角色，以及为何必须保持划分的纯洁性
数据泄露类型与基准污染
为什么大语言模型（LLM）让污染问题尤其棘手（网络规模 + 合成数据 + 讨论 + 智能体）
完整的污染链条与语义重复
“在测试集上训练”的实际分类
为何公开基准会老化、饱和，并最终失效

然后是清晰测量的实践标准：

针对经典机器学习与大语言模型（LLM）的恰当评估设计
协议冻结、排除清单与诚实报告
严谨的前 / 中 / 后卫生检查清单
2026 年严肃的大语言模型（LLM）评估标准
基准生命周期管理与公共品思维
什么不是不可饶恕的，什么是 刻意误导

你应该阅读这份指南，如果现在没空，那你绝对要将其加入书签，回头再看。

基准 / 评估 / 测试集就是尺子。别去弯曲它。

@TheAhmadOsman：难以置信！理解基准测试与评估的最完整指南，以及为何刻意训练它们具有误导性……

相似文章

@TheAhmadOsman: https://x.com/TheAhmadOsman/status/2064724789952958663

MLE-bench：评估机器学习代理在机器学习工程中的表现

MLS-Bench：对 AI 系统在构建更优 AI 方面能力的全面与严格评估

AI模型构建者的不稳定指标与基准测试文化

@dkare1009: 大多数AI工程师从零散的博客文章和过时的教程中学习。一本指南书刚刚将一切整合在一起。T…

提交意见反馈