神秘的Hy3 LLM以大幅优势领跑OpenRouter模型排行榜

Hacker News Top 2026/05/29 00:09 新闻

hy3 openrouter model-rankings tencent llm open-source usage-patterns

摘要

来自腾讯的神秘模型Hy3意外地以token使用量领跑OpenRouter的LLM排行榜，尽管其基准测试表现平平且公众认知度低。本文利用OpenRouter的公开数据调查了这一异常现象。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/05/29 01:14

# 神秘的 Hy3 LLM 以巨大优势登顶 OpenRouter 模型排行榜来源：https://minimaxir.com/2026/05/openrouter-hy3/ OpenRouter（https://openrouter.ai/）是一项通过单一 API 提供大多数 LLM 访问的服务，鉴于近期新 LLM 发布的快速节奏，它变得异常有用。由于该公司充当用户与 LLM API 之间的中介角色，OpenRouter 拥有关于用户如何与 LLM 交互的可靠且具有代表性的数据，并将这些数据发布在 AI 模型排名（https://openrouter.ai/rankings）页面上：这与通常出于竞争原因保密这些数据的实验室形成了可喜的差异。最近，我查看了 OpenRouter 排名，注意到了一些奇怪的事情。检索于 2026 年 5 月 25 日。两个新模型现在在 token 使用量上击败了 LLM 宠儿 Claude，而且领先幅度超过 50%？我听说过 DeepSeek Flash V4（https://api-docs.deepseek.com/news/news260424）：这是来自 DeepSeek（https://www.deepseek.com/en/）的一个开源版本（https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash），它不仅速度快/价格低，而且以极低的成本性能接近领先的 LLM 模型，所以它非常受欢迎并不奇怪。但是 Hy3 preview 到底是什么？我*从未*听说过 Hy3，也没人讨论过它。谷歌搜索它，返回的是中国巨头腾讯（https://www.tencent.com/en-us/）关于 Hy3 开源版本的公告（https://hy.tencent.com/research/hy3）：Hugging Face 上的模型页面本身（https://huggingface.co/tencent/Hy3-preview）内容稀疏，包含一些异常诚实的基准测试结果，与其他中国开源模型相比并不有利。来自腾讯 Hugging Face 仓库的 Hy3 编码导向基准测试结果。在 Hacker News 上搜索（https://hn.algolia.com/?q=hy3）Hy3 只返回了一个与 Hy3 无关的提交（https://www.reuters.com/world/china/chinese-companies-used-claude-improve-own-models-anthropic-says-2026-02-23/），而 Reddit 上的讨论更多是关于开放权重发布（https://www.reddit.com/r/LocalLLaMA/comments/1steddy/hy3_preview/）的。一个 Reddit 帖子也提到了 Hy3 的崛起（https://www.reddit.com/r/ArtificialInteligence/comments/1t5gbju/298_growth_366t_tokens_tencents_hy3_is_crushing/），但那是 5 月 6 日的事情，当时 Hy3 由 OpenRouter 免费提供；那个免费端点已不再可用，因此上述每周排名中的 Hy3 使用量来自付费用户。 Hy3 preview 显然在代理编码以外的领域也很受欢迎。检索于 2026 年 5 月 25 日。我错过了什么吗？经过一些非科学性测试，模型质量确实与其他中国模型相当，远不及 Claude Opus 4.7 和 GPT 5.5 之类的模型。它不是什么被忽视的沧海遗珠，所以一定有其他原因。幸运的是，OpenRouter 有数据可以缩小可能的解释范围，但在检查数据后，我变得**更加**困惑了。 Hy3 preview（https://openrouter.ai/tencent/hy3-preview）可从 OpenRouter API 获得，标价 0.066 美元/100 万输入 token，这确实比当前排名第一的模型 DeepSeek V4 Flash（https://openrouter.ai/deepseek/deepseek-v4-flash）的标价 0.10 美元/100 万输入 token 便宜。考虑到 LLM 和编码代理成本急剧上升，更便宜的模型胜出是有道理的，但前提是它提供类似的质量，而事实似乎并非如此。这是模型页面上 Hy3 preview 在 OpenRouter 上的随时间使用量图表： Hy3 preview 在 5 月 8 日之前没有使用数据，这暗示此时模型从免费 SKU 切换到了付费 SKU。此后使用量也一直稳定，而本帖子中显示的初始排名是在发布数周后，表明使用量至少是自然的（或者*非常昂贵*才能造假），而不是一次性的异常值。值得注意的是，如果你对这里呈现的数字做些计算，LLM API 调用的输入 token 与输出 token 的占比现在总计为**98% 输入**，2% 输出。对于 OpenRouter AI 模型排名，历史上曾有过特定应用将其默认模型切换到某个特定 LLM 而导致的峰值，例如当 Kilo Code 在 2025 年 9 月免费提供 Grok Code Fast 1（https://kilo.ai/landing/grok-code-fast-1-optimized）时，这使其迅速飙升（https://www.reddit.com/r/ChatGPTCoding/comments/1n4k30e/grok_code_fast_1_seems_to_be_very_popular_in/）。但这里似乎并非如此，因为应用只占 Hy3 preview 活动的很小一部分。前 5 个应用占 Hy3 preview 全部活动的不到 1%。 OpenRouter 的价值主张是能够自动将给定的 API 请求路由到不同的提供商：对于 DeepSeek V4 Flash 这样的开放权重模型，OpenRouter 列出了 *13* 个提供商，但 Hy3 preview 尽管是开放权重模型，却只有一个提供商¹：总部位于新加坡的 SiliconFlow（https://www.siliconflow.com/）。他们在 OpenRouter 上的使用页面（https://openrouter.ai/provider/siliconflow）显示，SiliconFlow 之前的使用量相对较少……直到 Hy3 出现。绿色区域对应免费的 Hy3 使用量，蓝色区域对应付费的 Hy3 使用量：OpenRouter 在鼠标悬停时没有区分它们，我怀疑这是一个 bug。巧合的是，该数据可视化显示，当 Hy3 preview 从免费转为付费时，使用量并没有急剧下降，这本身就很有趣：如果用户没有从免费模型中获得价值，他们很可能在成本影响钱包后停止使用。我错过了什么？是不是我想多了，答案真的就是因为它“最便宜”，并且从免费时期获得了足够的引流行（https://en.wikipedia.org/wiki/Loss_leader）动力？ ……但 Hy3 preview 真的*是* OpenRouter 上由大公司支持的最便宜的 LLM 吗？当我重新检查一些假设时，我发现 OpenRouter 的数据显示 Hy3 preview *不是* 最便宜的性能良好的 LLM：实际上 DeepSeek V4 Flash 更便宜，但有一些有趣的注意事项。 ## 2026 年的 LLM 经济学这里还有一些关于 LLM API 工作方式的、不常被讨论的说明。LLM 调用仍然是无状态的，这意味着在每一轮对话之后（包括用户向 LLM 提问的消息），当前对话线程中的**所有** token 都会被重新处理，这意味着在代理的情况下，输入 token 的数量会随着每条后续消息累计增加，这也是为什么频繁开启新线程（当上下文填满时）是鼓励有效使用代理的原因之一。来自 Zed Agent（https://zed.dev/docs/ai/agent-panel）使用 DeepSeek V4 Flash 时一分钟内的逆时间顺序 OpenRouter 日志。但即使在代理工作流出现之前，像完整 PDF 这样的大输入也会类似地膨胀上下文。因此，大多数 LLM 提供商实现了提示缓存（https://www.ibm.com/think/topics/prompt-caching），它重用对话早期处理过的输入 token：这是一个双赢，节省了 LLM 提供商的时间/计算资源，并将节省的成本传递给客户。大多数 LLM 提供商会自动缓存输入，包括通过 OpenRouter 访问时：成本旁边的磁盘闪电符号表示 token 已被缓存，并且缓存可能并不总是命中，尤其是当 OpenRouter 在线程中途切换提供商时。一个奇怪的 API 提供商是 Anthropic (Claude) API，由于某种原因它要求先支付缓存写入费用（https://platform.claude.com/docs/en/build-with-claude/prompt-caching#pricing）。通常，缓存读取成本是输入成本的 10%：OpenAI API（https://openai.com/api/pricing/）、Anthropic API（https://platform.claude.com/docs/en/about-claude/pricing）和 Google Gemini API（https://ai.google.dev/gemini-api/docs/pricing）的最新模型都是这种情况。对于提供 DeepSeek V4 Flash 的 13 家提供商，缓存读取成本在输入成本的 20% 到 50% 之间，这很合理，因为它们可能没有相同的规模经济。不过，有一家 DeepSeek V4 Flash 提供商是个例外：缓存读取成本只有 2%！（乘以 2，小数点左移两位）DeepSeek 的缓存读取价格怎么能这么低？DeepSeek 从 V4 开始实现了一种新的 KV 缓存方法（https://huggingface.co/blog/deepseekv4），作为模型的创建者，它处于最佳位置来利用自己的创新，如前所述，这些好处传递给了客户。DeepSeek V4 Pro（https://openrouter.ai/deepseek/deepseek-v4-pro）变体模型，由 DeepSeek 提供时，缓存读取成本仅为 *0.83%*！（你可以用计算器算一下）还记得我之前展示的 LLM API 成本中有 98% 是输入 token 吗？而这些输入 token 被积极缓存。这意味着 LLM 的“标价”现在具有误导性，但不同寻常的是，这对客户有利，因为实际价格将*便宜得多*！为了应对这种模糊性，OpenRouter 现在在模型页面上有一个实际价格表格，考虑了缓存命中的成本节约。以下是 DeepSeek V4 Flash 通过 OpenRouter 按提供商划分的实际定价，由于每个提供商的缓存读取成本和缓存命中率不同，因此各不相同：检索于 2026 年 5 月 25 日；这些值每小时更新一次。价格各不相同，但请注意第二行，DeepSeek 本身是提供商，价格高达 0.018 美元/100 万输入 token！那 2% 的缓存读取确实很划算。与 Hy3 preview 进行同类比较，其模型页面上注明的来自 SiliconFlow（高达 *44%* 的缓存读取成本）的实际价格为 0.034 美元/100 万：几乎是来自 DeepSeek 的 DeepSeek V4 Flash 的 *两倍*！当然，这仅当明确使用 DeepSeek 作为提供商时才适用，一些下游的 OpenRouter 客户端/代理可能不支持：OpenRouter 的价格与 DeepSeek 的价格直接匹配（https://api-docs.deepseek.com/quick_start/pricing），因此直接使用 DeepSeek API 密钥也会得到相同的结果。房间里还有一头大象：DeepSeek 是一家中国公司，有些人可能不想——或法律上不能——将他们的支付处理信息或 LLM 输入数据提供给一家中国公司，该公司在其 OpenRouter 数据政策信息中将 prompt training 设置为 `true`，这是一个合理的担忧。是的，基于订阅的 LLM 服务，如 Claude Code（https://code.claude.com/docs/en/overview）和 Codex（https://openai.com/codex/），如果你能持续用完使用限制，仍然是最划算的。但通过 API 使用超便宜的 DeepSeek V4 Flash 不会将你锁定在订阅中，如果你需要更多的代理计算能力来完成一个项目，它比从订阅服务中支付额外使用费更便宜。² 至少，这是对额外定价花样的一种微观经济制衡，随着代理 AI 竞争的加剧，这类花样很可能在 2026 年继续出现。总的来说，我仍然不明白 Hy3 preview 在 OpenRouter 上受欢迎的原因。根据可用的数据和上述分析，我的猜测是，确实有一个与腾讯无关的大型应用程序将 Hy3 作为其数据处理后端，而这个应用程序不仅仅是代理编码。但 OpenRouter 的优点之一是切换模型和提供商的成本很低：如果 DeepSeek V4 Flash 在几周内因人们意识到其定价而出现使用量激增，我也不会感到惊讶。

神秘的Hy3 LLM以大幅优势领跑OpenRouter模型排行榜

相似文章

开源模型在市场份额上决定性地超越专有模型（基于OpenRouter过去3个月的数据）

那么...有人弄清楚Elephant Alpha到底是哪个公司的模型了吗？

@alexatallah: 如果你是一位研究人员，希望→开展严谨的研究，探讨多个模型如何超越前沿→利…

为何没人讨论腾讯的Hy3 Preview？

OpenRouter在一年内估值翻倍至13亿美元

提交意见反馈