Arena AI 模型 ELO 历史

Hacker News Top 2026/05/14 03:19 工具

ai-models elo-history model-evaluation performance-tracking lmsys-arena model-degradation

摘要

追踪 LMSYS Arena 排行榜上各大 AI 模型 ELO 历史的工具，揭示了性能退化与升级等隐含趋势。

Hi HN，我构建了一个实时追踪工具，用于可视化旗舰 AI 模型的生命周期和性能变化。我们都经历过这种现象：一款旗舰模型在发布时令人惊艳，但几周后突然感觉有点不对劲。我想知道这到底是主观感受还是可量化的现实，于是搭建了一个仪表板，追踪来自 Arena AI 的历史 ELO 评分。我没有采用包含所有模型变体的复杂曲线图，而是为每个主要 AI 实验室绘制一条连续的曲线。它会动态追踪实验室旗下评分最高的旗舰模型随时间的变化，从而让代际跃迁和性能缓慢衰退都变得一目了然。为了让图表在移动端也显示美观，我迭代了很多次。还提供了可选的深色模式。不过，我有一个特定的数据盲区，希望这个社区能提供一些见解。Arena AI 主要依赖测试 API 端点。但众所周知，消费者聊天 UI 通常会叠加复杂的系统提示、安全包装，或者在高负载下为了节省计算资源而悄悄切换到重度量化模型。API 基准测试并不能完全捕捉到普通网页用户所经历的这种“削弱”现象。有谁知道哪些历史 ELO 或评估数据集是专门抓取或测试消费者网页 UI 输出（而非原始 API）的吗？我很想整合这些数据，以便更准确地反映消费者的真实体验。该项目是开源的（页脚中有仓库链接），欢迎提供任何反馈或数据集线索！

查看原文

查看缓存全文

缓存时间: 2026/05/14 06:21

# Arena AI 模型 ELO 历史来源：https://mayerwin.github.io/AI-Arena-History/ ## 为什么存在这个页面？ AI 实验室经常在模型发布后对其进行更新。这些更新有时会引入“削弱”（nerfs），例如激进的审查、过度量化（以节省计算成本）或行为退化。这张图表揭示了这些隐藏的趋势。 **关于 Web UI 与 API 的说明：**LMSYS Arena 通过 API 端点（“原始”模型）测试模型性能。消费者聊天界面（如 gemini.com 或 chatgpt.com）通常会在原始 API 之上添加系统提示、安全过滤器和特定 UI 封装器。提供商还可能在大负载时静默切换到模型的**量化（低精度）**版本以节省算力，导致 API 基准测试无法完全捕获的感知“削弱”。欢迎**提交 PR**，提供代表真实 Web 界面评估的数据源。 ## 数据来自哪里？数据每日自动从 Hugging Face 上的官方LM Arena 排行榜数据集 (https://huggingface.co/datasets/lmarena-ai/leaderboard-dataset)获取。Arena 依赖于数千次盲测、众包的人类评估，使其成为衡量实际模型能力最可靠的指标。 ## 图表逻辑如何工作？每个主要 AI 实验室恰好有**一条曲线**代表其旗舰系列。在每个时间点，曲线追踪该实验室在排行榜上**评分最高**的符合旗舰资格的模型——而不仅仅是最新宣布的那一个。 - **最高 ELO 旗舰：**如果实验室发布了一个中档模型（如 Sonnet），而更高档的模型（如 Opus）仍然是最佳表现者，曲线保持在 Opus 上。 - **推理模式变体合并：**后缀如 `-thinking`、`-reasoning` 和 `-high` 是同一基础模型的不同模式——它们被合并，这样曲线就不会在这两者之间来回切换。 - **新发布：**显示为带标签的标记点，通常伴随着分数的跃升。 - **退化：**模型生命周期中任何在两个发布版本之间的下降趋势都清晰可见。

Arena AI 模型 ELO 历史

相似文章

@rohanpaul_ai：Arena 刚刚发布了一个真实世界的智能体排行榜，该排行榜根据人工智能模型完成实际用户任务的效果进行排名，而不仅仅是……

Arena，人人都在用的AI排行榜，如今已成为价值1亿美元的业务

重新思考我们如何衡量AI智能

EvoArena：追踪记忆演化以实现动态环境中鲁棒的LLM智能体

Agent Arena

提交意见反馈