Databricks 将 GPT-5.5 引入企业代理工作流

OpenAI Blog 模型

摘要

Databricks 推出用于企业代理工作流的 GPT-5.5,在 OfficeQA Pro 基准测试中实现了最先进水平,与 GPT-5.4 相比错误率降低了 46%。

在模型于 OfficeQA Pro 基准测试中创下最新最先进水平后,Databricks 将 GPT-5.5 用于企业代理工作流。
查看原文
查看缓存全文

缓存时间: 2026/05/16 00:33

# Databricks 将 GPT-5.5 引入企业智能体工作流 来源:https://openai.com/index/databricks/ OpenAI 2026 年 5 月 15 日 GPT-5.5 在 Databricks 针对复杂企业智能体任务的基准测试 OfficeQA Pro 上创下了新的最佳性能。 公司规模:企业 地区:北美 行业:技术 产品:Codex 50% OfficeQA Pro 基准测试准确率(最佳性能) 46% 相比 GPT-5.4,OfficeQA Pro 基准测试错误率降低 在 GPT-5.5 于 OfficeQA Pro(Databricks 针对复杂企业文档任务的基准测试)上创下新最佳性能后,Databricks 正将该模型开放用于客户智能体工作流。 OfficeQA Pro 评估模型在处理涉及扫描 PDF、遗留文件和长上下文文档的工作流中的解析、检索和基于事实的推理能力——这些任务常常导致生产级智能体系统崩溃。 在智能体框架设置中,GPT-5.5 相比 GPT-5.4 错误率降低了 46%,并且成为首个在 OfficeQA Pro 上准确率突破 50% 的模型。 > “搭载 5.5 的 Codex 如今在所有智能体和模型中达到最佳性能。” ——Arnav Singhvi,研究工程师 ## 在 OfficeQA Pro 上实现最佳性能 OfficeQA Pro 包含大量扫描或遗留的企业文档,解析过程中微小的提取错误会在后续工作流中层层放大。“一旦你无法正确提取某个数字或数值,整个智能体处理的信息轨迹就会完全改变。”Singhvi 解释道。 Databricks 在这些重解析工作流中从 GPT-5.5 获得了最大提升。“像 5.4 这样的早期模型无法完全正确解析所有数字,但 5.5 似乎在解析旧文档和扫描 PDF 方面实现了阶跃式提升。”Singhvi 表示。 团队还看到了多步骤任务编排方面的改进。“我们在 5.4 上发现的一个问题是,它有时会进行不必要的搜索绕路,导致轨迹效率非常低下。”Singhvi 说。 与早期模型相比,GPT-5.5 在检索相关上下文以及无需额外监督即可完成复杂工作流方面更加可靠。 ## 将 GPT-5.5 投入生产工作流 Databricks 现已通过 AI Unity Gateway 提供 GPT-5.5,客户可在使用 AgentBricks 和 Agent Supervisor API 构建的工作流中使用该模型。在这些系统中,GPT-5.5 负责编排各专用智能体之间的解析、检索和执行。 “我们将会看到大量客户使用 AgentBricks 和 Agent Supervisor API 构建自定义智能体工作流,”Singhvi 表示,“让 GPT-5.5 来监督这些工作流非常令人兴奋。” > “GPT-5.5 在知识提升方面表现优异。对我们而言,它是在知识工作上的一次阶跃式变革。” ——Arnav Singhvi,研究工程师 ## 继续阅读

相似文章

Introducing GPT-5.5 with Databricks

YouTube AI Channels

OpenAI与Databricks合作推出GPT-5.5模型,在agent框架中错误率降低46%,成为唯一在基准测试中超过50%的模型,解析质量和函数调用能力显著提升。

GPT-5.5 正式发布

OpenAI Blog

OpenAI 发布了 GPT-5.5,这是其前沿 AI 模型的重大升级,在保持高效与速度的同时,在智能体编码、研究以及多步骤任务执行等方面具备更强的能力。

推出 GPT-5.2

OpenAI Blog

OpenAI 推出 GPT-5.2,这是目前最强大的模型系列,在知识工作、代码生成、图像理解、长上下文理解和工具调用方面都有显著提升。GPT-5.2 Thinking 变体在专业基准测试中达到最先进的性能,在 44 个职业的 GDPval 任务中,70.9% 的表现超越了人类专家。

用GPT-5.2推进科学与数学

OpenAI Blog

OpenAI发布了GPT-5.2,包括专门针对科学和数学工作优化的GPT-5.2 Pro与GPT-5.2 Thinking变体。该模型在GPQA Diamond(93.2%)和FrontierMath(40.3%)等基准测试中达到了最先进的性能,展现出更强的推理能力,旨在加速物理、化学、生物和数学等领域的科学研究。

介绍 GPT-5.4

OpenAI Blog

# 介绍 GPT-5.4 Source: [https://openai.com/index/introducing-gpt-5-4/](https://openai.com/index/introducing-gpt-5-4/) 今天,我们在 ChatGPT(作为 GPT‑5\.4 Thinking)、API 和 Codex 中发布 **GPT‑5\.4**。它是我们用于专业工作的最强大、最高效的前沿模型。我们还将在 ChatGPT 和 API 中发布 **GPT‑5\.4 Pro**,适合希望在复杂任务上获得极致性能的用户。GPT‑5\.4 融合了我们近期在推理、编码和智能体方面的最佳进展。