百度 ERNIE 5.1 在 AI 搜索领域与 Gemini 3.1 Pro 并驾齐驱
摘要
百度的 ERNIE 5.1 在 Search Arena 排行榜上位列第四,在 AI 搜索任务中的表现优于 Gemini 3.1 Pro 和 GPT-5.4。
暂无内容
查看缓存全文
缓存时间: 2026/05/10 10:18
# Baidu 的 ERNIE 5.1 在 AI 搜索领域正与 Gemini 3.1 Pro 匹敌 - Firethering
来源: https://firethering.com/baidu-ernie-5-1-ai-search/
\- 广告 \-
百度从事搜索业务的时间,比大多数 AI 公司存在的时间还要长。当 OpenAI 仍只是一个研究实验室,Anthropic 尚未成立时,百度已经是 14 亿人的主导搜索引擎。搜索并非他们近期才学到的技能。
因此,当 ERNIE 5.1 在 Search Arena(搜索竞技场)全球排行榜上位列第 4,高于带有 Grounding( grounding/接地)功能的 Gemini 3.1 Pro,高于 GPT-5.4 搜索,甚至高于谷歌自家的搜索增强模型时,除非你忘记了它的制造者是谁,否则这并不令人惊讶。
大多数西方 AI 报道将 ERNEIE 视为脚注。但这些数据表明,这一观点值得重新考虑。
## **目录**
- 全球搜索排名第 4,超越谷歌的 Gemini。(https://firethering.com/baidu-ernie-5-1-ai-search/#what-the-search-arena-result-actually-means)
- 基准测试数据 (https://firethering.com/baidu-ernie-5-1-ai-search/#the-benchmark-numbers)
- 使这一切成为可能的技术押注 (https://firethering.com/baidu-ernie-5-1-ai-search/#the-technical-bet-that-made-this-possible)
- 四阶段后训练管道 (https://firethering.com/baidu-ernie-5-1-ai-search/#the-four-stage-post-training-pipeline)
- 局限性 (https://firethering.com/baidu-ernie-5-1-ai-search/#the-honest-limitations)
- 谁应该关注 (https://firethering.com/baidu-ernie-5-1-ai-search/#who-should-care)
## ****全球搜索排名第 4。超越谷歌的 Gemini。****
ERNIE 5.1 的 AI 搜索和文本排名来源: baidu.comSearch Arena 是一个独立评估平台,真实用户在此比较不同模型在回答需要搜索和推理当前信息的问题时的表现。这是一类任务,光靠“知道很多”是不够的,模型必须找到正确的信息,理解它,并产生有用的答案。
ERNIE 5.1 在 Search Arena 上的 Elo 得分为 1,223。Claude Opus 4.6 Search 以 1,255 分领先。GPT-5.5 Search 得分为 1,242。ERNIE 虽然落后于两者,但领先于 Claude Sonnet 4.6 Search、带有 Grounding 功能的 Gemini 3.1 Pro 以及该排行榜上的其他所有模型。
对于一个大多数西方开发者未曾触碰、大多数西方报道也未予严肃关注的模型来说,这一排名值得更多的关注,而不仅仅是一个脚注。
Text Arena(文本竞技场)也讲述了类似的故事。ERNIE 5.1 Preview 在全球排名第 13,Elo 得分为 1,476,介于 GPT-5.5 和 Grok-4.20 Multi Agent 之间。这些是包含所有热门模型实际竞争的全球评估。
## **基准测试数据**
百度 ERNIE 5.1 基准测试来源: baidu.com在 AIME26(带工具)中,ERNIE 5.1 得分为 99.6,在带工具使用的竞赛数学方面仅次于得分为 99.9 的 Gemini 3.1 Pro。DeepSeek V4 Pro 在同一基准测试中得分为 92.6。Claude Opus 4.6 得分为 81.2。ERNIE 与该基准测试中紧随其后的模型之间的差距并不小。
τ3-bench 测试模型在现实场景中执行多步骤代理任务的能力,ERNIE 得分为 67.9,略高于 DeepSeek V4 Pro 的 67.5 和 Gemini 3.1 Pro 的 67.1。Claude Opus 4.6 在该图表中以 72.4 分领先。
SpreadsheetBench 测试模型是否能够处理真实的电子表格推理任务——这类结构化数据工作在实际业务流程中不断出现。ERNIE 得分为 72.5,高于 DeepSeek V4 Pro 的 67.0 和 Gemini 3.1 Pro 的结果。
但在对任何这些数据解读过度之前请注意。百度发布了这些基准测试。大多数比较数据来自他们自己的评估设置。Search Arena 和 Text Arena 的结果经过独立验证,这正是这两个数据最值得首先引用的原因。
## **使这一切成为可能的技术押注**
大多数模型家族以不同的方式构建。你决定要构建一个 7B 模型、一个 13B 模型和一个 70B 模型,然后运行三个独立的训练作业。3 倍的算力,3 倍的时间,三个结果且不能保证彼此一致。
百度在 ERNIE 5.1 上采取了一种不同的做法。他们训练了一个大型模型 ERNIE 5.0,其方式是在其中同时包含多种模型尺寸。在训练期间,系统随机改变活跃层的数量、参与路由的专家数量以及每个 token 激活的专家数量。结果是单次训练运行产生了整个不同尺寸和计算预算的模型家族。
ERNIE 5.1 是从该矩阵中提取的,而不是从头训练的。总参数量压缩至 ERNIE 5.0 的大约三分之一。活跃参数约为其一半。预训练算力仅为从头训练可比模型成本的 6%。这意味着百度可以比那些在每个模型上花费全部算力的实验室更快地迭代。效率转化为更多的实验、更快的反馈和更快的改进。
这种架构优势是否在基准测试中显现,Search Arena 的结果表明确实如此。
##### **相关:**ERNIE-Image: 用于海报、漫画及结构化生成的开源 8B 文本到图像模型 (https://firethering.com/ernie-image-open-source-text-to-image/)
## **四阶段后训练管道**
训练大型模型的一个潜在问题是研究人员所谓的“跷跷板效应”。让模型在编程方面变得更好,它在创意写作方面可能会略微变差。提高数学推理能力,指令遵循可能会退化。每项能力的提升都以牺牲其他方面为代价。
百度针对 ERNIE 5.1 的后训练方法直接解决了这个问题。他们不在一个阶段中一起训练所有内容,而是在四个连续阶段中将专家训练与能力融合分开。
首先,统一的微调阶段建立基准指令遵循能力。然后,分别训练用于编程、推理和代理任务的专家模型,每一个都独立优化,互不干扰。接着,蒸馏阶段将所有这些专家能力同时拉入一个统一模型。最后,通用的强化学习阶段处理那些难以蒸馏的能力,如创意写作、开放式对话以及具有高输出多样性的任务。
结果是一个无需在能力之间妥协的模型,因为这些能力在训练期间从未相互竞争。创意写作声明和基准测试分布是否能在实践中保持这一点,表明其在多个类别中都很强劲,且没有明显的退化。
##### **您可能喜欢:**适用于消费级硬件的最佳 AI 编码模型 (https://firethering.com/best-coding-models-consumer-hardware/)
## **局限性**
ERNIE 5.1 不是开放权重。没有 Hugging Face 发布,因此无法在本地运行。访问需通过百度自家产品,包括 ERNIE 网站、百度 AI Studio 以及正在推出 ERNIE 5.1 集成的创意平台。
基准测试情况也值得明确。Search Arena 和 Text Arena 的结果经过独立验证,这些是评估该模型实际地位最重要的数据。代理和知识基准测试来自百度自己的评估设置。鉴于 Arena 的结果,这是可信的,但未经独立确认。
创意写作声明是最难评估的。在内部创意写作评估中接近 Gemini 3.1 Pro 是一个具体的声明,需要实际在许多创意任务中使用模型来验证。来自模型自身开发者的内部评估是整个发布中最不可靠的信号。
## **谁应该关注**
如果您构建搜索产品、文档检索系统,或任何需要查找和综合当前信息的事物,ERNIE 5.1 在 Search Arena 中的排名值得注意。在独立排行榜上全球排名第 4,高于谷歌自家的搜索模型,这是一个值得更多报道的信号。
如果您处理中文内容或服务中文用户,这是目前针对该用例最有能力的模型,且优势明显。
如果您需要开放权重、本地部署或您控制的硬件,这不是适合您的模型。百度将 ERNIE 保留在其自家产品之后,这一点不太可能改变。
更广泛的观点更简单。西方 AI 报道存在一个盲点,即那些并非来自 OpenAI、Anthropic、谷歌或少数发布开放权重的中国实验室的模型。ERNIE 5.1 在 Text Arena 上全球排名第 13,在 Search Arena 上排名第 4。这并非区域性结果。这是全球性的,且应被视为如此。
相似文章
本月百度(ERNIE)可能推出新模型?
关于百度可能推出新ERNIE模型的猜测消息,通过推文和即将到来的百度Create 2026活动视频暗示。
Gemini 3.1 Pro:专为最复杂任务打造的更智能模型
Google 发布 Gemini 3.1 Pro,这是一款升级后的 AI 模型,推理能力大幅提升,可应对复杂任务,现已面向开发者、企业和消费者推出。
baidu/ERNIE-Image
百度发布ERNIE-Image,这是一个基于扩散Transformer架构、拥有8B参数的开源权重文本到图像生成模型。它在开源模型中达到了最先进的性能,在文本渲染、指令跟随和结构化图像生成方面表现出色。
Gemini 2.5:我们最智能的AI模型
Google推出了Gemini 2.5,这是其最智能的AI模型。Gemini 2.5 Pro Experimental在LMArena基准测试中领先优势显著,并通过改进的思维模型架构展现了增强的推理和编码能力。
@FinanceYF5: 十年前搜索靠关键词,五年前靠语义,今天谷歌直接把最强AI塞进搜索框。 Gemini 3.5驱动,支持图片/视频/文件跨模态提问,AI Overviews和AI Mode合二为一。 搜索这次是真的变了!
谷歌将Gemini 3.5 AI集成进搜索框,支持图片、视频、文件等多模态提问,并合并AI Overviews和AI Mode,带来搜索体验的重大变革。