神秘的Hy3 LLM以大幅优势领跑OpenRouter模型排行榜
摘要
来自腾讯的神秘模型Hy3意外地以token使用量领跑OpenRouter的LLM排行榜,尽管其基准测试表现平平且公众认知度低。本文利用OpenRouter的公开数据调查了这一异常现象。
暂无内容
查看缓存全文
缓存时间: 2026/05/29 01:14
# 神秘的 Hy3 LLM 以巨大优势登顶 OpenRouter 模型排行榜
来源:https://minimaxir.com/2026/05/openrouter-hy3/
OpenRouter(https://openrouter.ai/) 是一项通过单一 API 提供大多数 LLM 访问的服务,鉴于近期新 LLM 发布的快速节奏,它变得异常有用。由于该公司充当用户与 LLM API 之间的中介角色,OpenRouter 拥有关于用户如何与 LLM 交互的可靠且具有代表性的数据,并将这些数据发布在 AI 模型排名(https://openrouter.ai/rankings)页面上:这与通常出于竞争原因保密这些数据的实验室形成了可喜的差异。最近,我查看了 OpenRouter 排名,注意到了一些奇怪的事情。
检索于 2026 年 5 月 25 日。
两个新模型现在在 token 使用量上击败了 LLM 宠儿 Claude,而且领先幅度超过 50%?我听说过 DeepSeek Flash V4(https://api-docs.deepseek.com/news/news260424):这是来自 DeepSeek(https://www.deepseek.com/en/) 的一个开源版本(https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash),它不仅速度快/价格低,而且以极低的成本性能接近领先的 LLM 模型,所以它非常受欢迎并不奇怪。但是 Hy3 preview 到底是什么?我*从未*听说过 Hy3,也没人讨论过它。谷歌搜索它,返回的是中国巨头腾讯(https://www.tencent.com/en-us/) 关于 Hy3 开源版本的公告(https://hy.tencent.com/research/hy3):Hugging Face 上的模型页面本身(https://huggingface.co/tencent/Hy3-preview)内容稀疏,包含一些异常诚实的基准测试结果,与其他中国开源模型相比并不有利。
来自腾讯 Hugging Face 仓库的 Hy3 编码导向基准测试结果。
在 Hacker News 上搜索(https://hn.algolia.com/?q=hy3)Hy3 只返回了一个与 Hy3 无关的提交(https://www.reuters.com/world/china/chinese-companies-used-claude-improve-own-models-anthropic-says-2026-02-23/),而 Reddit 上的讨论更多是关于开放权重发布(https://www.reddit.com/r/LocalLLaMA/comments/1steddy/hy3_preview/)的。一个 Reddit 帖子也提到了 Hy3 的崛起(https://www.reddit.com/r/ArtificialInteligence/comments/1t5gbju/298_growth_366t_tokens_tencents_hy3_is_crushing/),但那是 5 月 6 日的事情,当时 Hy3 由 OpenRouter 免费提供;那个免费端点已不再可用,因此上述每周排名中的 Hy3 使用量来自付费用户。
Hy3 preview 显然在代理编码以外的领域也很受欢迎。
检索于 2026 年 5 月 25 日。
我错过了什么吗?经过一些非科学性测试,模型质量确实与其他中国模型相当,远不及 Claude Opus 4.7 和 GPT 5.5 之类的模型。它不是什么被忽视的沧海遗珠,所以一定有其他原因。幸运的是,OpenRouter 有数据可以缩小可能的解释范围,但在检查数据后,我变得**更加**困惑了。
Hy3 preview(https://openrouter.ai/tencent/hy3-preview) 可从 OpenRouter API 获得,标价 0.066 美元/100 万输入 token,这确实比当前排名第一的模型 DeepSeek V4 Flash(https://openrouter.ai/deepseek/deepseek-v4-flash) 的标价 0.10 美元/100 万输入 token 便宜。考虑到 LLM 和编码代理成本急剧上升,更便宜的模型胜出是有道理的,但前提是它提供类似的质量,而事实似乎并非如此。
这是模型页面上 Hy3 preview 在 OpenRouter 上的随时间使用量图表:
Hy3 preview 在 5 月 8 日之前没有使用数据,这暗示此时模型从免费 SKU 切换到了付费 SKU。此后使用量也一直稳定,而本帖子中显示的初始排名是在发布数周后,表明使用量至少是自然的(或者*非常昂贵*才能造假),而不是一次性的异常值。值得注意的是,如果你对这里呈现的数字做些计算,LLM API 调用的输入 token 与输出 token 的占比现在总计为**98% 输入**,2% 输出。
对于 OpenRouter AI 模型排名,历史上曾有过特定应用将其默认模型切换到某个特定 LLM 而导致的峰值,例如当 Kilo Code 在 2025 年 9 月免费提供 Grok Code Fast 1(https://kilo.ai/landing/grok-code-fast-1-optimized)时,这使其迅速飙升(https://www.reddit.com/r/ChatGPTCoding/comments/1n4k30e/grok_code_fast_1_seems_to_be_very_popular_in/)。但这里似乎并非如此,因为应用只占 Hy3 preview 活动的很小一部分。
前 5 个应用占 Hy3 preview 全部活动的不到 1%。
OpenRouter 的价值主张是能够自动将给定的 API 请求路由到不同的提供商:对于 DeepSeek V4 Flash 这样的开放权重模型,OpenRouter 列出了 *13* 个提供商,但 Hy3 preview 尽管是开放权重模型,却只有一个提供商¹:总部位于新加坡的 SiliconFlow(https://www.siliconflow.com/)。他们在 OpenRouter 上的使用页面(https://openrouter.ai/provider/siliconflow)显示,SiliconFlow 之前的使用量相对较少……直到 Hy3 出现。
绿色区域对应免费的 Hy3 使用量,蓝色区域对应付费的 Hy3 使用量:OpenRouter 在鼠标悬停时没有区分它们,我怀疑这是一个 bug。
巧合的是,该数据可视化显示,当 Hy3 preview 从免费转为付费时,使用量并没有急剧下降,这本身就很有趣:如果用户没有从免费模型中获得价值,他们很可能在成本影响钱包后停止使用。
我错过了什么?是不是我想多了,答案真的就是因为它“最便宜”,并且从免费时期获得了足够的引流行(https://en.wikipedia.org/wiki/Loss_leader)动力?
……但 Hy3 preview 真的*是* OpenRouter 上由大公司支持的最便宜的 LLM 吗?当我重新检查一些假设时,我发现 OpenRouter 的数据显示 Hy3 preview *不是* 最便宜的性能良好的 LLM:实际上 DeepSeek V4 Flash 更便宜,但有一些有趣的注意事项。
## 2026 年的 LLM 经济学
这里还有一些关于 LLM API 工作方式的、不常被讨论的说明。LLM 调用仍然是无状态的,这意味着在每一轮对话之后(包括用户向 LLM 提问的消息),当前对话线程中的**所有** token 都会被重新处理,这意味着在代理的情况下,输入 token 的数量会随着每条后续消息累计增加,这也是为什么频繁开启新线程(当上下文填满时)是鼓励有效使用代理的原因之一。
来自 Zed Agent(https://zed.dev/docs/ai/agent-panel) 使用 DeepSeek V4 Flash 时一分钟内的逆时间顺序 OpenRouter 日志。
但即使在代理工作流出现之前,像完整 PDF 这样的大输入也会类似地膨胀上下文。因此,大多数 LLM 提供商实现了提示缓存(https://www.ibm.com/think/topics/prompt-caching),它重用对话早期处理过的输入 token:这是一个双赢,节省了 LLM 提供商的时间/计算资源,并将节省的成本传递给客户。大多数 LLM 提供商会自动缓存输入,包括通过 OpenRouter 访问时:成本旁边的磁盘闪电符号表示 token 已被缓存,并且缓存可能并不总是命中,尤其是当 OpenRouter 在线程中途切换提供商时。一个奇怪的 API 提供商是 Anthropic (Claude) API,由于某种原因它要求先支付缓存写入费用(https://platform.claude.com/docs/en/build-with-claude/prompt-caching#pricing)。
通常,缓存读取成本是输入成本的 10%:OpenAI API(https://openai.com/api/pricing/)、Anthropic API(https://platform.claude.com/docs/en/about-claude/pricing) 和 Google Gemini API(https://ai.google.dev/gemini-api/docs/pricing) 的最新模型都是这种情况。对于提供 DeepSeek V4 Flash 的 13 家提供商,缓存读取成本在输入成本的 20% 到 50% 之间,这很合理,因为它们可能没有相同的规模经济。不过,有一家 DeepSeek V4 Flash 提供商是个例外:
缓存读取成本只有 2%!(乘以 2,小数点左移两位)DeepSeek 的缓存读取价格怎么能这么低?DeepSeek 从 V4 开始实现了一种新的 KV 缓存方法(https://huggingface.co/blog/deepseekv4),作为模型的创建者,它处于最佳位置来利用自己的创新,如前所述,这些好处传递给了客户。DeepSeek V4 Pro(https://openrouter.ai/deepseek/deepseek-v4-pro) 变体模型,由 DeepSeek 提供时,缓存读取成本仅为 *0.83%*!(你可以用计算器算一下)
还记得我之前展示的 LLM API 成本中有 98% 是输入 token 吗?而这些输入 token 被积极缓存。这意味着 LLM 的“标价”现在具有误导性,但不同寻常的是,这对客户有利,因为实际价格将*便宜得多*!为了应对这种模糊性,OpenRouter 现在在模型页面上有一个实际价格表格,考虑了缓存命中的成本节约。以下是 DeepSeek V4 Flash 通过 OpenRouter 按提供商划分的实际定价,由于每个提供商的缓存读取成本和缓存命中率不同,因此各不相同:
检索于 2026 年 5 月 25 日;这些值每小时更新一次。
价格各不相同,但请注意第二行,DeepSeek 本身是提供商,价格高达 0.018 美元/100 万输入 token!那 2% 的缓存读取确实很划算。与 Hy3 preview 进行同类比较,其模型页面上注明的来自 SiliconFlow(高达 *44%* 的缓存读取成本)的实际价格为 0.034 美元/100 万:几乎是来自 DeepSeek 的 DeepSeek V4 Flash 的 *两倍*!当然,这仅当明确使用 DeepSeek 作为提供商时才适用,一些下游的 OpenRouter 客户端/代理可能不支持:OpenRouter 的价格与 DeepSeek 的价格直接匹配(https://api-docs.deepseek.com/quick_start/pricing),因此直接使用 DeepSeek API 密钥也会得到相同的结果。
房间里还有一头大象:DeepSeek 是一家中国公司,有些人可能不想——或法律上不能——将他们的支付处理信息或 LLM 输入数据提供给一家中国公司,该公司在其 OpenRouter 数据政策信息中将 prompt training 设置为 `true`,这是一个合理的担忧。
是的,基于订阅的 LLM 服务,如 Claude Code(https://code.claude.com/docs/en/overview) 和 Codex(https://openai.com/codex/),如果你能持续用完使用限制,仍然是最划算的。但通过 API 使用超便宜的 DeepSeek V4 Flash 不会将你锁定在订阅中,如果你需要更多的代理计算能力来完成一个项目,它比从订阅服务中支付额外使用费更便宜。² 至少,这是对额外定价花样的一种微观经济制衡,随着代理 AI 竞争的加剧,这类花样很可能在 2026 年继续出现。
总的来说,我仍然不明白 Hy3 preview 在 OpenRouter 上受欢迎的原因。根据可用的数据和上述分析,我的猜测是,确实有一个与腾讯无关的大型应用程序将 Hy3 作为其数据处理后端,而这个应用程序不仅仅是代理编码。但 OpenRouter 的优点之一是切换模型和提供商的成本很低:如果 DeepSeek V4 Flash 在几周内因人们意识到其定价而出现使用量激增,我也不会感到惊讶。
相似文章
开源模型在市场份额上决定性地超越专有模型(基于OpenRouter过去3个月的数据)
根据OpenRouter数据,开源大型语言模型在token市场份额上已超越专有模型,在三个月内从偏向专有模型的60-40比例转变为偏向开源的60-40比例。
那么...有人弄清楚Elephant Alpha到底是哪个公司的模型了吗?
社区正在讨论Elephant Alpha的身份,这是一个100B参数的模型,在OpenRouter上排名第一,拥有256K上下文窗口、快速推理速度和强大的编码能力,但中文支持较差,大家猜测可能是哪家公司开发的。
@alexatallah: 如果你是一位研究人员,希望→开展严谨的研究,探讨多个模型如何超越前沿→利…
OpenRouter 推出 Fusion API,这是一种复合模型,能以一半的价格实现高智能,利用了最大的 LLM 市场。
为何没人讨论腾讯的Hy3 Preview?
文章指出,腾讯的Hy3 Preview开放模型在评估中表现惊人,缩小了与顶级闭源模型的差距,但与西方AI实验室相比仍讨论不足。
OpenRouter在一年内估值翻倍至13亿美元
OpenRouter完成1.13亿美元B轮融资,由CapitalG领投,估值翻倍至13亿美元(投后)。这家AI网关初创公司现提供超过400个模型的访问,每周处理25万亿个token。