GPT-5.5 性能领先（且出现幻觉），Kimi K2.6 领跑开源大语言模型，AI 给气候承诺带来压力，大语言模型与人类的战略思维比较

The Batch 2026/05/01 16:46 模型

gpt-5.5 openai benchmark hallucination kimi climate-pledges strategic-thinking

摘要

GPT-5.5 在基准测试中达到新水平但存在幻觉问题；Kimi K2.6 领先开源大语言模型；同时探讨 AI 对气候承诺的影响以及大语言模型的战略思维。

Batch AI 新闻与洞见：到 2026 年，我们提示 AI 的方式与 2022 年 ChatGPT 刚问世时已截然不同。

查看原文

查看缓存全文

缓存时间: 2026/05/08 06:24

# GPT-5.5 表现出色（也会产生幻觉），Kimi K2.6 领先开源 LLM，AI 加重气候承诺压力，以及更多... 来源：https://www.deeplearning.ai/the-batch/issue-351/ 亲爱的朋友们， 2026年我们使用AI的提示方式与ChatGPT刚问世时的2022年截然不同。有些人仍然主要通过提出简短问题来使用LLM。但这些模型的能力远不止于此，它们可以思考数分钟，将大量文档作为上下文输入，并能使用网络搜索和其他工具。我正在教授一门新课程，*《人人都会的AI提示工程》* (http://deeplearning.ai/courses/ai-prompting-for-everyone/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-_zcG7BpdpagrWj_qMRUq6xwAGtEfTbv4YradzERxm_eV0Uy3WuZ8H24KSsiQwgGsfnZRQv)，旨在帮助每个人——无论其当前技能水平如何——成为AI高级用户，并学会提示LLM以利用其最新能力。本课程涵盖适用于 ChatGPT、Gemini、Claude 及其他AI工具的技能： - 如何使用深度研究模式来处理复杂问题，生成有深度研究的报告。 - 如何为AI提供正确的上下文，包括比大多数人意识到的更多的文档和图片。 - 何时要求AI在关键决策上（如买什么车、学什么、或接受什么工作）进行数分钟的深入思考。 - 如何使用AI生成图像、分析数据并构建简单的游戏和网站。卡通插图展示了与定稿文稿相比，高效提纲挈领能带来更大影响。我还讲解了这些模型在底层工作原理的直观理解，以便学习者知道何时可以信赖它们的输出，何时则不能。在此过程中，您会看到飞鼠、一个创造力测试、我的一些老家庭照片以及烟花。请加入我 (http://deeplearning.ai/courses/ai-prompting-for-everyone?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-_zcG7BpdpagrWj_qMRUq6xwAGtEfTbv4YradzERxm_eV0Uy3WuZ8H24KSsiQwgGsfnZRQv)！本课程无需技术背景，欢迎转发给可能受益的朋友或家人。继续提示吧！ Andrew --- ## DeepLearning.AI 消息推广横幅："AI Prompting for Everyone" (https://www.deeplearning.ai/courses/ai-prompting-for-everyone/)学习如何从 ChatGPT、Claude 和 Gemini 等AI工具中获得更准确的答案、更优质的写作和更有用的输出。本课程由吴恩达教授，涵盖信息查找、头脑风暴和构建简单应用等内容。立即报名 (https://www.deeplearning.ai/courses/ai-prompting-for-everyone/) ## 新闻 GPT-5.5 以 82.7% 的得分在 Terminal-Bench 2.0 中领先，凸显了与竞争对手的性能差异。OpenAI 最新旗舰模型的更新在重要基准测试中设定了新的最优水平，但难以区分它知道和不知道的内容。 **最新动态：** GPT-5.5 (https://openai.com/index/introducing-gpt-5-5/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-_zcG7BpdpagrWj_qMRUq6xwAGtEfTbv4YradzERxm_eV0Uy3WuZ8H24KSsiQwgGsfnZRQv)是一个闭源视觉语言模型，专为智能体编程、计算机使用和知识工作而构建。GPT-5.5 Pro 是同一模型，但在推理过程中并行处理推理tokens。OpenAI 设定的API价格约为GPT-5.4每token费率的两倍。 - **输入/输出：** 文本和图像输入（通过API最高100万tokens，Codex中40万tokens），文本输出（最高12.8万tokens） - **功能：** 五个推理级别（xhigh、high、medium、low、none）、工具使用、网络搜索、结构化输出、工具搜索（仅API，按需加载工具而非一次性加载所有）、快速模式（仅Codex，以2.5倍价格生成速度快1.5倍） - **性能：** 在 Artificial Analysis Intelligence Index 和 ARC-AGI-2 中名列前茅 - **可用性/价格：** GPT-5.5 在 ChatGPT 中可供 Plus、Pro、Business 或 Enterprise 订阅用户使用，并在 Codex 中可供以上层级以及 Edu 和 Go 用户使用；GPT-5.5 Pro 在 ChatGPT 中可供 Pro、Business 或 Enterprise 订阅用户使用：GPT-5.5 API 输入/缓存/输出每百万 tokens 分别为 $5/$0.50/$30，GPT-5.5 Pro API 输入/输出每百万 tokens 分别为 $30/$180，无缓存折扣 - **未公开：** 架构、参数数量、训练数据和方法 **工作原理：** OpenAI 公开了 (https://openai.com/index/gpt-5-5-system-card/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-_zcG7BpdpagrWj_qMRUq6xwAGtEfTbv4YradzERxm_eV0Uy3WuZ8H24KSsiQwgGsfnZRQv)关于如何构建 GPT-5.5 的少量细节。与高性能模型的典型情况一样，训练数据混合了从网络抓取的公开数据、从合作伙伴处许可的数据以及从用户和人类训练师那里收集的数据。该模型通过强化学习进行训练，以便在回应之前进行推理。 **性能：** GPT-5.5 在客观基准测试中通常表现出顶级性能，尤其是在知识、智能体任务和抽象视觉推理测试中。然而，在主观评估方面，它落后于竞争对手。它也更容易自信地输出错误答案。 - 设置为 xhigh 推理的 GPT-5.5 在独立的 Artificial Analysis Intelligence Index 中名列第一，该指数是10项经济实用性任务测试的综合体，得分为60分。设置为最大推理的 Claude Opus 4.7 和设置为推理的 Gemini 3.1 Pro Preview 并列57分。 - 在测试抽象推理的视觉谜题ARC-AGI-2上，设置为 xhigh 推理的 GPT-5.5（每任务85.0%，成本$1.87）以显著更低的每任务成本取代了之前的领先者 Gemini 3 Deep Think（每任务84.6%，成本$13.62）。 - 在 OpenAI 的测试中，GPT-5.5 在 Terminal-Bench 2.0（需要规划和工具使用的命令行工作流）、OSWorld-Verified（真实计算机界面的自主操作）和 Tau2-bench Telecom（多轮客户服务工作流）上设立了新的最优得分。 - 在 AA-Omniscience Accuracy（一项奖励事实回忆的知识基准测试）上，设置为 xhigh 推理的 GPT-5.5 以57%的正确率取得最高分。然而，在奖励模型正确回答并承认无知但惩罚其自信犯错的 AA-Omniscience Index 上，设置为 xhigh 推理的 GPT-5.5（20分）排名第三，落后于 Gemini 3.1 Pro Preview（33分）和设置为最大推理的 Claude Opus 4.7（26分）。 - 在 Arena.ai 的排行榜上 (https://arena.ai/leaderboard?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-_zcG7BpdpagrWj_qMRUq6xwAGtEfTbv4YradzERxm_eV0Uy3WuZ8H24KSsiQwgGsfnZRQv)，该排行榜根据盲测的逐项比较对模型进行排名，GPT-5.5 远落后于竞争对手。Claude Opus 模型占据了大多数类别的顶端位置。例如，截至4月27日，GPT-5.5-high 在文本竞技场中排名第七，在代码竞技场 WebDev 中排名第九。 **是的，但是：** GPT-5.5 比同行知道得更多，但更经常地回答错误，并且更少承认无知。AA-Omniscience 基准测试提出了6000个涵盖商业、法律、健康、人文、科学/工程和软件工程的专家级问题。它包含一个“幻觉率”，即错误答案与错误答案、部分错误答案和弃权总和之比。按此衡量，设置为 high 推理的 GPT-5.5 达到了85.53%，明显差于设置为最大推理的 Claude Opus 4.7（36.18%）和 Gemini 3.1 Pro Preview（49.87%）。Apollo Research 另行发现 (https://deploymentsafety.openai.com/gpt-5-5/research-category-update-sandbagging?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-_zcG7BpdpagrWj_qMRUq6xwAGtEfTbv4YradzERxm_eV0Uy3WuZ8H24KSsiQwgGsfnZRQv)，GPT-5.5 在29%的样本中谎称完成了不可能完成的编程任务，较 GPT-5.4 的7%有显著跃升。OpenAI 对编程智能体流量的内部监控显示 (https://deploymentsafety.openai.com/gpt-5-5/sec%3Acoding-internal-misalignment?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-_zcG7BpdpagrWj_qMRUq6xwAGtEfTbv4YradzERxm_eV0Uy3WuZ8H24KSsiQwgGsfnZRQv)了类似的模式。 **安全影响：** OpenAI 发布了 VulnLMP 的结果，这是一项内部评估，测试 (https://deploymentsafety.openai.com/gpt-5-5/vulnlmp?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-_zcG7BpdpagrWj_qMRUq6xwAGtEfTbv4YradzERxm_eV0Uy3WuZ8H24KSsiQwgGsfnZRQv)模型是否能够针对广泛部署的软件开发漏洞利用程序。GPT-5.5 开展了为期多天的研究活动，并在多个目标中识别了潜在的内存相关漏洞，但它没有产生经过 OpenAI 评估框架确认的漏洞利用程序。根据 OpenAI 的准备框架，这一证据将 GPT-5.5 置于网络安全威胁的“高”层级，低于描述能够独立针对真实目标产生有效漏洞利用程序的模型的“严重”层级标签。 **为何重要：** 关于客观性能和人类偏好的评估正在对 GPT-5.5 讲述不同的故事。OpenAI 重新在 Artificial Analysis Intelligence Index 上取得领先，但当涉及主观、逐项比较时，情况则相反。Claude Opus 模型占据了 LMArena 文本、视觉、文档、搜索和代码排名的顶端位置，而 GPT-5.5 在大多数排名中未能进入前五名。基准测试衡量模型能完成什么，人类偏好衡量模型合作起来的感受如何。生产决策通常会权衡两者，并且——根据目前可用的衡量标准——两者正在分化。 **我们的想法：** 顶尖AI公司继续以令人眼花缭乱的速度推进前沿。GPT-5.5 是自2月以来继 Anthropic Claude Opus 4.7、GPT-5.4 和 Google Gemini 3.1 Pro Preview 之后的第四次旗舰发布。每次发布都重新洗牌了 Artificial Analysis Intelligence Index 的顶端，该指数可被视为现实世界任务通用能力的代理指标。开发者应设计其软件栈，以便像更新依赖一样轻松地切换模型。 --- 比利时大型数据中心的鸟瞰图，周围环绕着田野和太阳能电池板，突显AI的增长。 ## AI巨头的计划给二氧化碳减排承诺带来压力大型AI公司承诺限制温室气体排放的计划正面临风险，因为这些公司正在大规模建设数据中心，其中许多数据中心在近期乃至更长时间内将由化石燃料供电。 **最新动态：** Alphabet、亚马逊、Meta 和微软已开始承认，跟上预计的AI需求正在干扰早先停止向大气中增加温室气体浓度的计划，美联社报道 (https://apnews.com/article/technology-artificial-intelligence-climate-change-data-centers-ef3a9c264bd6376d77e2c81ab266fb38?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-_zcG7BpdpagrWj_qMRUq6xwAGtEfTbv4YradzERxm_eV0Uy3WuZ8H24KSsiQwgGsfnZRQv)。（免责声明：吴恩达是亚马逊董事会成员。） **工作原理：** 过去几年中，顶级科技公司消耗的电力显著增加，随之而来的是它们导致气候变化的温室气体排放量增加，尽管它们持续努力减少排放。虽然它们强调了包括风能、太阳能、地热和核能在内的清洁能源，但最近它们已开始开发天然气发电厂以满足AI快速增长的电力需求。 - 在Alphabet最新的环境报告 (https://www.gstatic.com/gumdrop/sustainability/google-2025-environmental-report.pdf?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-_zcG7BpdpagrWj_qMRUq6xwAGtEfTbv4YradzERxm_eV0Uy3WuZ8H24KSsiQwgGsfnZRQv)中，该公司将其2030年净零目标——该目标于2024年制定，此前其已放弃 (https://www.bloomberg.com/news/articles/2024-07-08/google-is-no-longer-claiming-to-be-carbon-neutral?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-_zcG7BpdpagrWj_qMRUq6xwAGtEfTbv4YradzERxm_eV0Uy3WuZ8H24KSsiQwgGsfnZRQv)维持碳中和运营的早期承诺——描述为一个“登月计划”。最近的报道 (https://www.wired.com/story/a-new-google-funded-data-center-will-be-powered-by-a-massive-gas-plant/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-_zcG7BpdpagrWj_qMRUq6xwAGtEfTbv4YradzERxm_eV0Uy3WuZ8H24KSsiQwgGsfnZRQv)指出，该公司位于德克萨斯州北部的数据中心将部分由天然气发电厂供电。Alphabet 已投资下一代地热和核能资源，但尚未达到可大规模部署的规模。尽管2024年其数据中心和办公室66%的能源来自无碳源——并且其单位计算排放量已大幅下降——但其2019年至2024年间的温室气体总排放量却增加了54%。 - 在亚马逊最新的可持续发展报告 (https://sustainability.aboutamazon.com/2024-amazon-sustainability-report.pdf?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-_zcG7BpdpagrWj_qMRUq6xwAGtEfTbv4YradzERxm_eV0Uy3WuZ8H24KSsiQwgGsfnZRQv)中，该公司表示扩展AI的最大挑战之一是能源需求增加。该公司已在密西西比州和印第安纳州投资天然气发电厂，以满足附近数据中心的能源需求。它将核能视为其实现碳中和战略的关键部分，但计划中的核能资源要到2030年代才能上线。与此同时，亚马逊自2019年以来的总碳排放量增加了33%。 - Meta 最新的可持续发展报告 (https://sustainability.atmeta.com/wp-content/uploads/2025/08/Meta_2025-Sustainability-Report_.pdf?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-_zcG7BpdpagrWj_qMRUq6xwAGtEfTbv4YradzERxm_eV0Uy3WuZ8H24KSsiQwgGsfnZRQv)强调，实现净零的道路取决于新技术、供应商以及与全球联盟的合作。该公司正在建设私人燃气发电厂 (https://www.deeplearning.ai/the-batch/rather-than-rely-on-public-utilities-ai-companies-build-their-own-power-plants/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-_zcG7BpdpagrWj_qMRUq6xwAGtEfTbv4YradzERxm_eV0Uy3WuZ8H24KSsiQwgGsfnZRQv)，为其包括位于路易斯安那州农村、迄今最大的5吉瓦设施在内的数据中心发电。它已投资于到2035年可支持高达6.6吉瓦新增和现有清洁能源的项目，包括地热、核能和储能，以更好地利用风能和太阳能。该公司2020年至2024年间的总排放量增加了超过60%，而其数据中心的电力消耗几乎增长了两倍。 - 虽然微软之前的可持续发展报告强调了在2030年前消除比其排放更多的温室气体方面的进展，但最新的版本 (https://cdn-dynmedia-1.microsoft.com/is/content/microsoftcorp/microsoft/msc/documents/presentations/CSR/2025-Microsoft-Environmental-Sustainability-Report.pdf?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-_zcG7BpdpagrWj_qMRUq6xwAGtEfTbv4YradzERxm_eV0Uy3WuZ8H24KSsiQwgGsfnZRQv)将这一目标描述为“一场马拉松，而非短跑”。微软最近与雪佛龙签署了一项协议，建造 (https://www.reuters.com/business/energy/microsoft-chevron-engine-no-1-sign-exclusive-deal-power-supply-2026-03-31/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-_zcG7BpdpagrWj_qMRUq6xwAGtEfTbv4YradzERxm_eV0Uy3WuZ8H24KSsiQwgGsfnZRQv)一座天然气发电厂，尽管在此之前它已签署了一份20年的购电协议，以重启核能...

GPT-5.5 性能领先（且出现幻觉），Kimi K2.6 领跑开源大语言模型，AI 给气候承诺带来压力，大语言模型与人类的战略思维比较

相似文章

GPT-5.5 产生幻觉的比率比 MIT 许可的 GLM-5.2 高出三倍

@peterom: 1) GLM 5.2 + Kimi 2.7 感觉仅略微逊色于顶级模型 2) 那额外的智能确实重要…

推出 GPT-5.2

为LLM构建了一个政治基准。KIMI K2无法回答关于台湾的问题（显然）。GPT-5.3在提供选择退出选项时100%拒绝回答问题。[P]

GLM-5.2: 专为长程任务打造

提交意见反馈