Arena AI 模型 ELO 历史

Hacker News Top 工具

摘要

追踪 LMSYS Arena 排行榜上各大 AI 模型 ELO 历史的工具,揭示了性能退化与升级等隐含趋势。

Hi HN,<p>我构建了一个实时追踪工具,用于可视化旗舰 AI 模型的生命周期和性能变化。<p>我们都经历过这种现象:一款旗舰模型在发布时令人惊艳,但几周后突然感觉有点不对劲。我想知道这到底是主观感受还是可量化的现实,于是搭建了一个仪表板,追踪来自 Arena AI 的历史 ELO 评分。<p>我没有采用包含所有模型变体的复杂曲线图,而是为每个主要 AI 实验室绘制一条连续的曲线。它会动态追踪实验室旗下评分最高的旗舰模型随时间的变化,从而让代际跃迁和性能缓慢衰退都变得一目了然。为了让图表在移动端也显示美观,我迭代了很多次。还提供了可选的深色模式。<p>不过,我有一个特定的数据盲区,希望这个社区能提供一些见解。<p>Arena AI 主要依赖测试 API 端点。但众所周知,消费者聊天 UI 通常会叠加复杂的系统提示、安全包装,或者在高负载下为了节省计算资源而悄悄切换到重度量化模型。API 基准测试并不能完全捕捉到普通网页用户所经历的这种“削弱”现象。<p>有谁知道哪些历史 ELO 或评估数据集是专门抓取或测试消费者网页 UI 输出(而非原始 API)的吗?<p>我很想整合这些数据,以便更准确地反映消费者的真实体验。该项目是开源的(页脚中有仓库链接),欢迎提供任何反馈或数据集线索!
查看原文
查看缓存全文

缓存时间: 2026/05/14 06:21

# Arena AI 模型 ELO 历史 来源:https://mayerwin.github.io/AI-Arena-History/ ## 为什么存在这个页面? AI 实验室经常在模型发布后对其进行更新。这些更新有时会引入“削弱”(nerfs),例如激进的审查、过度量化(以节省计算成本)或行为退化。这张图表揭示了这些隐藏的趋势。 **关于 Web UI 与 API 的说明:**LMSYS Arena 通过 API 端点(“原始”模型)测试模型性能。消费者聊天界面(如 gemini.com 或 chatgpt.com)通常会在原始 API 之上添加系统提示、安全过滤器和特定 UI 封装器。提供商还可能在大负载时静默切换到模型的**量化(低精度)**版本以节省算力,导致 API 基准测试无法完全捕获的感知“削弱”。欢迎**提交 PR**,提供代表真实 Web 界面评估的数据源。 ## 数据来自哪里? 数据每日自动从 Hugging Face 上的官方LM Arena 排行榜数据集 (https://huggingface.co/datasets/lmarena-ai/leaderboard-dataset)获取。Arena 依赖于数千次盲测、众包的人类评估,使其成为衡量实际模型能力最可靠的指标。 ## 图表逻辑如何工作? 每个主要 AI 实验室恰好有**一条曲线**代表其旗舰系列。在每个时间点,曲线追踪该实验室在排行榜上**评分最高**的符合旗舰资格的模型——而不仅仅是最新宣布的那一个。 - **最高 ELO 旗舰:**如果实验室发布了一个中档模型(如 Sonnet),而更高档的模型(如 Opus)仍然是最佳表现者,曲线保持在 Opus 上。 - **推理模式变体合并:**后缀如 `-thinking`、`-reasoning` 和 `-high` 是同一基础模型的不同模式——它们被合并,这样曲线就不会在这两者之间来回切换。 - **新发布:**显示为带标签的标记点,通常伴随着分数的跃升。 - **退化:**模型生命周期中任何在两个发布版本之间的下降趋势都清晰可见。

相似文章

重新思考我们如何衡量AI智能

Google DeepMind Blog

Google DeepMind和Kaggle推出了Kaggle Game Arena,一个开源的AI基准测试平台,让大型语言模型在策略游戏中进行对抗,从而提供动态的、可验证的能力评估。该平台通过提供明确的胜负条件和清晰的性能信号,克服了传统基准测试的局限性。

EvoArena:追踪记忆演化以实现动态环境中鲁棒的LLM智能体

Hugging Face Daily Papers

EvoArena引入了一个基准测试,用于评估LLM智能体在动态环境中的表现,该环境在终端、软件和社交领域具有渐进式更新;同时EvoMem提出了一种基于补丁的记忆范式,记录结构化的演化;实验表明,当前智能体在EvoArena上仅达到39.6%的准确率,而EvoMem在该基准测试上平均提升1.5%,并在GAIA和LoCoMo上也有所改进。

Agent Arena

Product Hunt

Agent Arena 是首个面向AI智能体的公开竞技场,允许用户在竞争环境中测试和比较AI智能体。