重新思考我们如何衡量AI智能

Google DeepMind Blog 产品

摘要

Google DeepMind和Kaggle推出了Kaggle Game Arena,一个开源的AI基准测试平台,让大型语言模型在策略游戏中进行对抗,从而提供动态的、可验证的能力评估。该平台通过提供明确的胜负条件和清晰的性能信号,克服了传统基准测试的局限性。

Game Arena是一个新的、开源的AI模型严格评估平台。它允许在具有明确胜负条件的环境中对最先进的系统进行对头比较。
查看原文
查看缓存全文

缓存时间: 2026/04/20 08:35

# 重新思考我们如何衡量 AI 智能 来源:https://blog.google/innovation-and-ai/products/kaggle-game-arena/ Game Arena 是一个新的开源平台,用于对 AI 模型进行严格评估。它允许在具有明确胜负条件的环境中对前沿系统进行正面对比。 Meg Risdal Kaggle 产品经理 ## 总体摘要 当前的 AI 基准测试跟不上现代模型的发展步伐。Google DeepMind 和 Kaggle 推出了 Kaggle Game Arena,这是一个公共 AI 基准测试平台,AI 模型在战略游戏中相互竞争。观看 8 月 5 日太平洋时间上午 10:30 的国际象棋表演赛,并期待未来更多的锦标赛。 摘要由 Google AI 生成。生成式 AI 仍处于试验阶段。 一幅风格化插图,展示各种策略游戏的元素。一个大的国际象棋皇后、纸牌和围棋棋盘与一个列表并排显示,代表战略分析。 当前的 AI 基准测试正在努力跟上现代模型的步伐。虽然它们有助于衡量模型在特定任务上的性能,但很难知道在互联网数据上训练的模型是真正在解决问题,还是只是记住已经看过的答案。当模型在某些基准测试上接近 100% 的准确率时,它们在揭示有意义的性能差异方面的效果也会下降。我们继续投资开发新的、更具挑战性的基准测试,但在走向通用人工智能的道路上,我们需要继续寻找评估的新方法。最近转向动态、人工判断测试的趋势解决了记忆化和饱和度的问题,但同时也产生了由人类偏好固有的主观性引起的新困难。 在继续改进和推进当前 AI 基准测试的同时,我们也在不断寻求测试新的模型评估方法。这就是为什么今天我们推出 Kaggle Game Arena (http://kaggle.com/game-arena):一个新的公共 AI 基准测试平台,AI 模型在战略游戏中进行正面竞争,提供了一种可验证且动态的能力衡量方式。 ## 为什么游戏是有意义的评估基准 游戏提供了清晰、明确的成功信号。它们的结构化性质和可衡量的结果使其成为评估模型和智能体的完美试验场。它们迫使模型展示许多技能,包括战略推理、长期规划和针对智能对手的动态适应,为其通用问题解决智能提供了强有力的信号。游戏作为基准的价值进一步得到提升,因为它们具有可扩展性——难度随着对手智能的增加而增加——以及我们检查和可视化模型"推理"的能力,这提供了对其战略思维过程的一瞥。 像 Stockfish (https://stockfishchess.org/) 这样的专业引擎和像 AlphaZero (https://deepmind.google/discover/blog/alphazero-shedding-new-light-on-chess-shogi-and-go/) 这样的通用游戏 AI 模型多年来能够以超人水平玩游戏,会毫无疑问地击败所有前沿模型。然而,今天的大型语言模型并非为特定游戏而专门构建的,因此它们的游戏水平远不如专业模型。虽然模型面临的直接挑战是缩小这一差距,但从长期来看,我们希望它们能够实现目前不可能达到的水平。通过不断增加的新颖环境集合,我们可以继续进一步挑战它们。 ## Game Arena 如何促进公平和开放的评估 Game Arena 建立在 Kaggle 上,为模型评估提供公平、标准化的环境。为了透明起见,游戏框架——连接每个 AI 模型与游戏环境并强制执行规则的框架——以及游戏环境 (https://github.com/Kaggle/kaggle-environments) 都是开源的。最终排名由严格的循环赛系统确定,其中每个模型对之间的大量比赛确保了统计上稳健的结果。 Google DeepMind 长期以来一直使用游戏作为基准,从 Atari (https://deepmind.google/discover/blog/agent57-outperforming-the-human-atari-benchmark/) 到 AlphaGo (https://deepmind.google/research/projects/alphago/) 和 AlphaStar (https://deepmind.google/discover/blog/alphastar-mastering-the-real-time-strategy-game-starcraft-ii/),来展示复杂的 AI 能力。通过在竞争竞技场中测试这些模型,我们可以为其战略推理建立明确的基线,并跟踪进展。目标是建立一个不断扩展的基准,随着模型面临更强对手而提高难度。随着时间的推移,这可能会导致新的策略,就像 AlphaGo 著名的创意"第 37 步 (https://deepmind.google/research/projects/alphago/)"一样,令人类专家困惑。在游戏中进行规划、适应和压力下推理的能力,类似于解决科学和商业复杂挑战所需的思维。 ## 如何观看国际象棋表演赛 8 月 5 日太平洋时间上午 10:30,加入我们举办的特别国际象棋表演赛,八个前沿模型 (https://www.kaggle.com/benchmarks/kaggle/chess-text/tournament) 将在单淘汰赛中对决。我们为本次表演赛精选了一些比赛样本。这项由世界顶级象棋专家主持的活动是 Game Arena 方法论的首次展示。 虽然有趣的表演赛采用锦标赛形式,但最终的排行榜排名将由循环赛系统确定,并在表演赛后发布。这种更广泛的方法在每一对模型之间进行超过一百场比赛,以确保统计上稳健和确定的性能衡量。您可以在 kaggle.com/game-arena (http://kaggle.com/game-arena) 上找到更多详情和观看比赛的方式。 我们计划定期在未来进行更多锦标赛,敬请期待。 ## 我们如何构建 AI 基准测试的未来 这只是开始。我们对 Game Arena 的愿景远不止一个游戏。Kaggle 即将通过新的挑战来扩展 Game Arena,首先从围棋和扑克等经典游戏开始。这些游戏,以及未来可能添加的视频游戏等,是测试 AI 执行长期规划和推理能力的绝佳试验场,帮助我们为 AI 创建一个全面且不断发展的基准。我们致力于不断为混合方案添加新的模型和框架,推动 AI 模型能够实现的边界。有关 Game Arena 和首届国际象棋表演赛锦标赛的更多详情,请参阅 Kaggle 的博客文章 (https://www.kaggle.com/blog/introducing-game-arena)。 ### 相关故事

相似文章

衡量通向AGI的进展:一个认知框架

Google DeepMind Blog

Google DeepMind发布了一篇论文,提出了一个衡量通向通用人工智能(AGI)进展的认知框架,识别了十项关键认知能力,并发起了一场Kaggle黑客马拉松以构建相关评估方法。

Arena.ai 可能正在运行迄今为止最欺诈性的基准测试

Reddit r/singularity

这篇文章批评 Arena.ai 涉嫌运行不诚实的基准测试,声称其将 GPT 5.5 在编程能力上排在 Meta 的 Muse Spark 之下,并将 Grok Imagine 在视频生成方面排在 Seedance 之上,作者断言这是客观错误的。

AI模型构建者的不稳定指标与基准测试文化

arXiv cs.AI

本文介绍了Benchmarking-Cultures-25数据集,该数据集分析了AI模型构建者如何在新闻稿中选择性突出基准测试。研究发现评估格局碎片化,跨模型可比性有限,并指出基准测试更多被用作市场定位的叙事工具,而非标准化的科学测量手段。

跨尺度科学挑战的AI智能体基准测试

arXiv cs.AI

介绍SciAgentArena,一个约200个任务的基准测试,用于评估真实科学研究中的AI智能体。发现智能体在明确指定的数据分析工作流程中表现有效,但在产生新颖见解和开放式探索方面存在困难。