利用 GPT-5.1-Codex-Max 构建更多

OpenAI Blog 模型

摘要

OpenAI 推出 GPT-5.1-Codex-Max,这是一款新的智能代理编码模型,具有改进的推理能力、token 效率,以及通过“压缩”机制在数百万个 token 上保持连贯工作的能力。该模型更快速、更智能,可以持续运行数小时甚至数天的长时间任务,代表了 AI 辅助软件工程的重大进步。

推出 GPT-5.1-Codex-Max,这是一款更快速、更智能的智能代理编码模型,专为 Codex 设计。该模型旨在处理长时间、项目规模的工作,具有增强的推理能力和 token 效率。
查看原文
查看缓存全文

缓存时间: 2026/04/20 14:52

# 用GPT-5.1-Codex-Max构建更多可能 来源:https://openai.com/index/gpt-5-1-codex-max/ 今天我们推出GPT‑5.1‑Codex‑Max,这是我们在前沿自主编程领域的最新模型,即日起可在Codex中使用。GPT‑5.1‑Codex‑Max基于我们基础推理模型的更新版本构建,该模型在软件工程、数学、研究等领域的自主任务上进行了训练。GPT‑5.1‑Codex‑Max在开发周期的每个阶段都更快、更智能、更节省token——这是迈向成为可靠编程伙伴的新一步。 GPT‑5.1‑Codex‑Max专为长期、细致的工作而设计。它是我们首个原生支持通过一种称为*压缩*的过程在多个上下文窗口间协同工作的模型,能够在单个任务中连贯地处理数百万个token。这开启了项目级的重构、深度调试会话以及长达数小时的智能体循环。 GPT‑5.1‑Codex‑Max即日起可在Codex中用于CLI、IDE扩展、云端和代码审查,API访问即将推出。 GPT‑5.1‑Codex‑Max基于真实世界的软件工程任务进行训练,如PR创建、代码审查、前端编码和问答,在许多前沿编程评估中表现优于我们之前的模型。该模型在基准测试上的提升也带来了实际使用中的改进:GPT‑5.1‑Codex‑Max是我们第一个经过训练可在Windows环境中运行的模型,并且其训练现在包含了旨在使其成为Codex CLI中更好协作者的任务。 由于更高效的推理,GPT‑5.1‑Codex‑Max在token效率上表现出显著提升。在SWE‑bench Verified上,使用“中等”推理能力的GPT‑5.1‑Codex‑Max比相同推理能力的GPT‑5.1‑Codex性能更好,同时使用的思考token减少了30%。对于不注重延迟的任务,我们还引入了新的“极高”(‘xhigh’)推理能力,它会思考更长时间以获得更好的答案。不过我们仍然推荐大多数任务将“中等”作为日常使用。 我们预计token效率的提升将转化为开发者实际成本的节省。 例如,GPT‑5.1‑Codex‑Max能够生成高质量的前端设计,功能性和美观度相似,但成本远低于GPT‑5.1‑Codex。 压缩机制使GPT‑5.1‑Codex‑Max能够完成之前因上下文窗口限制而失败的任务,例如复杂的重构和长时间的智能体循环——它会在长周期中剪裁历史记录,同时保留最重要的上下文。在Codex应用中,GPT‑5.1‑Codex‑Max在接近上下文窗口限制时会自动压缩会话,从而获得新的上下文窗口。它重复这一过程,直到任务完成。 在长时间跨度内保持连贯工作的能力,是迈向更通用、更可靠的AI系统的基础能力。GPT‑5.1‑Codex‑Max可以连续独立工作数小时。在我们的内部评估中,我们观察到GPT‑5.1‑Codex‑Max在任务上工作了超过24小时。它会持续迭代实现、修复测试失败,最终交付成功结果。 *在此示例中,GPT‑5.1‑Codex‑Max正在独立重构Codex CLI开源仓库。* *当会话长度接近模型上下文窗口时,它会自动压缩会话以释放空间,继续任务而不丢失进度。* *视频已为清晰起见进行了剪辑和加速。* GPT‑5.1‑Codex‑Max在需要持续、长程推理的评估中表现显著更好。因为它能通过压缩在多个上下文窗口间连贯工作,该模型在长程编程和网络安全等领域的挑战中提供了更好的结果。我们分析了该模型在GPT‑5.1‑Codex‑Max系统卡(https://openai.com/index/gpt-5-1-codex-max-system-card/)中第一方和第三方评估上的表现。 根据我们的准备度框架(https://openai.com/index/updating-our-preparedness-framework/),GPT‑5.1‑Codex‑Max在网络安全方面尚未达到“高”能力,但它是我们迄今为止部署的最具能力的网络安全模型,而自主网络安全能力正在快速演进。因此,我们正在采取措施为网络安全领域的“高”能力做准备,并加强我们在网络领域的防护措施,同时努力确保防御者能够通过Aardvark(https://openai.com/index/introducing-aardvark/)等计划从这些改进的能力中受益。 当我们推出GPT‑5‑Codex时,我们实施了专门的网络安全监控,以检测和破坏恶意活动。虽然我们尚未观察到大规模滥用的显著增加,但我们正在为高级能力准备额外的缓解措施。我们的团队已经破坏了试图滥用我们模型的网络行动(https://openai.com/global-affairs/disrupting-malicious-uses-of-ai-october-2025/),可疑活动会通过我们的政策监控系统被路由进行审查。 Codex默认设计为在安全的沙箱中运行:文件写入仅限于其工作空间,网络访问默认禁用,除非开发者手动开启。我们建议将Codex保持在此受限访问模式,因为启用互联网或网络搜索可能会引入来自不受信任内容的提示注入(https://openai.com/safety/prompt-injections/)风险。 随着Codex在长时间运行任务上越来越强,开发者在做出更改或部署到生产环境前审查智能体的工作也变得越来越重要。为此,Codex会生成终端日志并引用其工具调用和测试结果。虽然它的代码审查降低了将模型*或*人为产生的错误部署到生产环境的风险,但Codex应被视为一个额外的审查者,而不是人工审查的替代品。 网络安全能力既可以用于防御也可以用于攻击,因此我们采取迭代部署的方法:从实际使用中学习,更新防护措施,并保留重要的防御工具,如自动漏洞扫描和修复辅助。 GPT‑5.1‑Codex‑Max可通过Codex在ChatGPT Plus、Pro、Business、Edu和Enterprise计划中使用。有关各计划使用限制的详细信息,请参阅我们的文档(在新窗口中打开)(https://developers.openai.com/codex/models)。 对于通过API密钥使用Codex CLI的开发者,我们计划很快在API中提供GPT‑5.1‑Codex‑Max。 从今天开始,GPT‑5.1‑Codex‑Max将取代GPT‑5.1‑Codex成为Codex各界面中的默认模型。与通用型号GPT‑5.1不同,我们建议仅在Codex或类似Codex的环境中将GPT‑5.1‑Codex‑Max和Codex系列模型用于自主编程任务。 GPT‑5.1‑Codex‑Max展示了模型在持续长程编程任务、管理复杂工作流以及使用更少token生成高质量实现方面取得了多大进展。我们看到该模型与我们对CLI、IDE扩展、云集成和代码审查工具的持续升级相结合,极大地提高了工程生产力:在内部,95%的OpenAI工程师每周使用Codex,而这些工程师在采用Codex后PR提交量增加了约70%。随着我们推动智能体能力的边界,我们很期待看到你将用它们构建什么。

相似文章

推出 GPT-5.3-Codex

OpenAI Blog

OpenAI 推出 GPT-5.3-Codex,这是一款先进的智能编程模型,融合了前沿编程能力、推理能力和专业知识,在 SWE-Bench Pro 和 Terminal-Bench 上实现了最先进的性能,同时比前代模型快 25%。

GPT-5.3-Codex 系统卡

OpenAI Blog

OpenAI 发布了 GPT-5.3-Codex,这是目前最强大的代理型编码模型,结合了前沿的编码性能与高级推理能力,具备交互式长时间任务执行功能,并在网络安全领域引入了新颖的高能力安全防护措施。

GPT-5.2-Codex 介绍

OpenAI Blog

OpenAI 发布了 GPT-5.2-Codex,这是一个先进的代理型编码模型,针对复杂软件工程任务进行了优化,在长上下文理解、Windows 支持和网络安全能力方面有所改进。该模型在 SWE-Bench Pro 和 Terminal-Bench 2.0 上取得了最先进的性能,现已向付费 ChatGPT 用户开放,API 访问将在未来几周内提供。

GPT-5.1-Codex-Max 系统卡

OpenAI Blog

OpenAI 发布了 GPT-5.1-Codex-Max,这是一款前沿的智能体编码模型,针对软件工程任务进行了训练,通过压缩技术支持原生多上下文窗口,能够在单个任务中处理数百万个令牌。系统卡详细说明了在网络安全、生物学和 AI 自我改进等领域的全面安全措施和准备情况框架评估。

介绍 GPT-5.4

OpenAI Blog

# 介绍 GPT-5.4 Source: [https://openai.com/index/introducing-gpt-5-4/](https://openai.com/index/introducing-gpt-5-4/) 今天,我们在 ChatGPT(作为 GPT‑5\.4 Thinking)、API 和 Codex 中发布 **GPT‑5\.4**。它是我们用于专业工作的最强大、最高效的前沿模型。我们还将在 ChatGPT 和 API 中发布 **GPT‑5\.4 Pro**,适合希望在复杂任务上获得极致性能的用户。GPT‑5\.4 融合了我们近期在推理、编码和智能体方面的最佳进展。