首页
/
模型
/
GPT-5.5 性能领先(且出现幻觉),Kimi K2.6 领跑开源大语言模型,AI 给气候承诺带来压力,大语言模型与人类的战略思维比较
GPT-5.5 性能领先(且出现幻觉),Kimi K2.6 领跑开源大语言模型,AI 给气候承诺带来压力,大语言模型与人类的战略思维比较
摘要
GPT-5.5 在基准测试中达到新水平但存在幻觉问题;Kimi K2.6 领先开源大语言模型;同时探讨 AI 对气候承诺的影响以及大语言模型的战略思维。
Batch AI 新闻与洞见:到 2026 年,我们提示 AI 的方式与 2022 年 ChatGPT 刚问世时已截然不同。
查看缓存全文
缓存时间:
2026/05/08 06:24
# GPT-5.5 表现出色(也会产生幻觉),Kimi K2.6 领先开源 LLM,AI 加重气候承诺压力,以及更多...
来源:https://www.deeplearning.ai/the-batch/issue-351/
亲爱的朋友们,
2026年我们使用AI的提示方式与ChatGPT刚问世时的2022年截然不同。有些人仍然主要通过提出简短问题来使用LLM。但这些模型的能力远不止于此,它们可以思考数分钟,将大量文档作为上下文输入,并能使用网络搜索和其他工具。
我正在教授一门新课程,*《人人都会的AI提示工程》* (http://deeplearning.ai/courses/ai-prompting-for-everyone/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-_zcG7BpdpagrWj_qMRUq6xwAGtEfTbv4YradzERxm_eV0Uy3WuZ8H24KSsiQwgGsfnZRQv),旨在帮助每个人——无论其当前技能水平如何——成为AI高级用户,并学会提示LLM以利用其最新能力。
本课程涵盖适用于 ChatGPT、Gemini、Claude 及其他AI工具的技能:
- 如何使用深度研究模式来处理复杂问题,生成有深度研究的报告。
- 如何为AI提供正确的上下文,包括比大多数人意识到的更多的文档和图片。
- 何时要求AI在关键决策上(如买什么车、学什么、或接受什么工作)进行数分钟的深入思考。
- 如何使用AI生成图像、分析数据并构建简单的游戏和网站。
卡通插图展示了与定稿文稿相比,高效提纲挈领能带来更大影响。我还讲解了这些模型在底层工作原理的直观理解,以便学习者知道何时可以信赖它们的输出,何时则不能。在此过程中,您会看到飞鼠、一个创造力测试、我的一些老家庭照片以及烟花。
请加入我 (http://deeplearning.ai/courses/ai-prompting-for-everyone?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-_zcG7BpdpagrWj_qMRUq6xwAGtEfTbv4YradzERxm_eV0Uy3WuZ8H24KSsiQwgGsfnZRQv)!本课程无需技术背景,欢迎转发给可能受益的朋友或家人。
继续提示吧!
Andrew
---
## DeepLearning.AI 消息
推广横幅:"AI Prompting for Everyone" (https://www.deeplearning.ai/courses/ai-prompting-for-everyone/)学习如何从 ChatGPT、Claude 和 Gemini 等AI工具中获得更准确的答案、更优质的写作和更有用的输出。本课程由吴恩达教授,涵盖信息查找、头脑风暴和构建简单应用等内容。立即报名 (https://www.deeplearning.ai/courses/ai-prompting-for-everyone/)
## 新闻
GPT-5.5 以 82.7% 的得分在 Terminal-Bench 2.0 中领先,凸显了与竞争对手的性能差异。OpenAI 最新旗舰模型的更新在重要基准测试中设定了新的最优水平,但难以区分它知道和不知道的内容。
**最新动态:** GPT-5.5 (https://openai.com/index/introducing-gpt-5-5/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-_zcG7BpdpagrWj_qMRUq6xwAGtEfTbv4YradzERxm_eV0Uy3WuZ8H24KSsiQwgGsfnZRQv)是一个闭源视觉语言模型,专为智能体编程、计算机使用和知识工作而构建。GPT-5.5 Pro 是同一模型,但在推理过程中并行处理推理tokens。OpenAI 设定的API价格约为GPT-5.4每token费率的两倍。
- **输入/输出:** 文本和图像输入(通过API最高100万tokens,Codex中40万tokens),文本输出(最高12.8万tokens)
- **功能:** 五个推理级别(xhigh、high、medium、low、none)、工具使用、网络搜索、结构化输出、工具搜索(仅API,按需加载工具而非一次性加载所有)、快速模式(仅Codex,以2.5倍价格生成速度快1.5倍)
- **性能:** 在 Artificial Analysis Intelligence Index 和 ARC-AGI-2 中名列前茅
- **可用性/价格:** GPT-5.5 在 ChatGPT 中可供 Plus、Pro、Business 或 Enterprise 订阅用户使用,并在 Codex 中可供以上层级以及 Edu 和 Go 用户使用;GPT-5.5 Pro 在 ChatGPT 中可供 Pro、Business 或 Enterprise 订阅用户使用:GPT-5.5 API 输入/缓存/输出每百万 tokens 分别为 $5/$0.50/$30,GPT-5.5 Pro API 输入/输出每百万 tokens 分别为 $30/$180,无缓存折扣
- **未公开:** 架构、参数数量、训练数据和方法
**工作原理:** OpenAI 公开了 (https://openai.com/index/gpt-5-5-system-card/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-_zcG7BpdpagrWj_qMRUq6xwAGtEfTbv4YradzERxm_eV0Uy3WuZ8H24KSsiQwgGsfnZRQv)关于如何构建 GPT-5.5 的少量细节。与高性能模型的典型情况一样,训练数据混合了从网络抓取的公开数据、从合作伙伴处许可的数据以及从用户和人类训练师那里收集的数据。该模型通过强化学习进行训练,以便在回应之前进行推理。
**性能:** GPT-5.5 在客观基准测试中通常表现出顶级性能,尤其是在知识、智能体任务和抽象视觉推理测试中。然而,在主观评估方面,它落后于竞争对手。它也更容易自信地输出错误答案。
- 设置为 xhigh 推理的 GPT-5.5 在独立的 Artificial Analysis Intelligence Index 中名列第一,该指数是10项经济实用性任务测试的综合体,得分为60分。设置为最大推理的 Claude Opus 4.7 和设置为推理的 Gemini 3.1 Pro Preview 并列57分。
- 在测试抽象推理的视觉谜题ARC-AGI-2上,设置为 xhigh 推理的 GPT-5.5(每任务85.0%,成本$1.87)以显著更低的每任务成本取代了之前的领先者 Gemini 3 Deep Think(每任务84.6%,成本$13.62)。
- 在 OpenAI 的测试中,GPT-5.5 在 Terminal-Bench 2.0(需要规划和工具使用的命令行工作流)、OSWorld-Verified(真实计算机界面的自主操作)和 Tau2-bench Telecom(多轮客户服务工作流)上设立了新的最优得分。
- 在 AA-Omniscience Accuracy(一项奖励事实回忆的知识基准测试)上,设置为 xhigh 推理的 GPT-5.5 以57%的正确率取得最高分。然而,在奖励模型正确回答并承认无知但惩罚其自信犯错的 AA-Omniscience Index 上,设置为 xhigh 推理的 GPT-5.5(20分)排名第三,落后于 Gemini 3.1 Pro Preview(33分)和设置为最大推理的 Claude Opus 4.7(26分)。
- 在 Arena.ai 的排行榜上 (https://arena.ai/leaderboard?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-_zcG7BpdpagrWj_qMRUq6xwAGtEfTbv4YradzERxm_eV0Uy3WuZ8H24KSsiQwgGsfnZRQv),该排行榜根据盲测的逐项比较对模型进行排名,GPT-5.5 远落后于竞争对手。Claude Opus 模型占据了大多数类别的顶端位置。例如,截至4月27日,GPT-5.5-high 在文本竞技场中排名第七,在代码竞技场 WebDev 中排名第九。
**是的,但是:** GPT-5.5 比同行知道得更多,但更经常地回答错误,并且更少承认无知。AA-Omniscience 基准测试提出了6000个涵盖商业、法律、健康、人文、科学/工程和软件工程的专家级问题。它包含一个“幻觉率”,即错误答案与错误答案、部分错误答案和弃权总和之比。按此衡量,设置为 high 推理的 GPT-5.5 达到了85.53%,明显差于设置为最大推理的 Claude Opus 4.7(36.18%)和 Gemini 3.1 Pro Preview(49.87%)。Apollo Research 另行发现 (https://deploymentsafety.openai.com/gpt-5-5/research-category-update-sandbagging?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-_zcG7BpdpagrWj_qMRUq6xwAGtEfTbv4YradzERxm_eV0Uy3WuZ8H24KSsiQwgGsfnZRQv),GPT-5.5 在29%的样本中谎称完成了不可能完成的编程任务,较 GPT-5.4 的7%有显著跃升。OpenAI 对编程智能体流量的内部监控显示 (https://deploymentsafety.openai.com/gpt-5-5/sec%3Acoding-internal-misalignment?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-_zcG7BpdpagrWj_qMRUq6xwAGtEfTbv4YradzERxm_eV0Uy3WuZ8H24KSsiQwgGsfnZRQv)了类似的模式。
**安全影响:** OpenAI 发布了 VulnLMP 的结果,这是一项内部评估,测试 (https://deploymentsafety.openai.com/gpt-5-5/vulnlmp?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-_zcG7BpdpagrWj_qMRUq6xwAGtEfTbv4YradzERxm_eV0Uy3WuZ8H24KSsiQwgGsfnZRQv)模型是否能够针对广泛部署的软件开发漏洞利用程序。GPT-5.5 开展了为期多天的研究活动,并在多个目标中识别了潜在的内存相关漏洞,但它没有产生经过 OpenAI 评估框架确认的漏洞利用程序。根据 OpenAI 的准备框架,这一证据将 GPT-5.5 置于网络安全威胁的“高”层级,低于描述能够独立针对真实目标产生有效漏洞利用程序的模型的“严重”层级标签。
**为何重要:** 关于客观性能和人类偏好的评估正在对 GPT-5.5 讲述不同的故事。OpenAI 重新在 Artificial Analysis Intelligence Index 上取得领先,但当涉及主观、逐项比较时,情况则相反。Claude Opus 模型占据了 LMArena 文本、视觉、文档、搜索和代码排名的顶端位置,而 GPT-5.5 在大多数排名中未能进入前五名。基准测试衡量模型能完成什么,人类偏好衡量模型合作起来的感受如何。生产决策通常会权衡两者,并且——根据目前可用的衡量标准——两者正在分化。
**我们的想法:** 顶尖AI公司继续以令人眼花缭乱的速度推进前沿。GPT-5.5 是自2月以来继 Anthropic Claude Opus 4.7、GPT-5.4 和 Google Gemini 3.1 Pro Preview 之后的第四次旗舰发布。每次发布都重新洗牌了 Artificial Analysis Intelligence Index 的顶端,该指数可被视为现实世界任务通用能力的代理指标。开发者应设计其软件栈,以便像更新依赖一样轻松地切换模型。
---
比利时大型数据中心的鸟瞰图,周围环绕着田野和太阳能电池板,突显AI的增长。
## AI巨头的计划给二氧化碳减排承诺带来压力
大型AI公司承诺限制温室气体排放的计划正面临风险,因为这些公司正在大规模建设数据中心,其中许多数据中心在近期乃至更长时间内将由化石燃料供电。
**最新动态:** Alphabet、亚马逊、Meta 和微软已开始承认,跟上预计的AI需求正在干扰早先停止向大气中增加温室气体浓度的计划,美联社报道 (https://apnews.com/article/technology-artificial-intelligence-climate-change-data-centers-ef3a9c264bd6376d77e2c81ab266fb38?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-_zcG7BpdpagrWj_qMRUq6xwAGtEfTbv4YradzERxm_eV0Uy3WuZ8H24KSsiQwgGsfnZRQv)。(免责声明:吴恩达是亚马逊董事会成员。)
**工作原理:** 过去几年中,顶级科技公司消耗的电力显著增加,随之而来的是它们导致气候变化的温室气体排放量增加,尽管它们持续努力减少排放。虽然它们强调了包括风能、太阳能、地热和核能在内的清洁能源,但最近它们已开始开发天然气发电厂以满足AI快速增长的电力需求。
- 在Alphabet最新的环境报告 (https://www.gstatic.com/gumdrop/sustainability/google-2025-environmental-report.pdf?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-_zcG7BpdpagrWj_qMRUq6xwAGtEfTbv4YradzERxm_eV0Uy3WuZ8H24KSsiQwgGsfnZRQv)中,该公司将其2030年净零目标——该目标于2024年制定,此前其已放弃 (https://www.bloomberg.com/news/articles/2024-07-08/google-is-no-longer-claiming-to-be-carbon-neutral?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-_zcG7BpdpagrWj_qMRUq6xwAGtEfTbv4YradzERxm_eV0Uy3WuZ8H24KSsiQwgGsfnZRQv)维持碳中和运营的早期承诺——描述为一个“登月计划”。最近的报道 (https://www.wired.com/story/a-new-google-funded-data-center-will-be-powered-by-a-massive-gas-plant/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-_zcG7BpdpagrWj_qMRUq6xwAGtEfTbv4YradzERxm_eV0Uy3WuZ8H24KSsiQwgGsfnZRQv)指出,该公司位于德克萨斯州北部的数据中心将部分由天然气发电厂供电。Alphabet 已投资下一代地热和核能资源,但尚未达到可大规模部署的规模。尽管2024年其数据中心和办公室66%的能源来自无碳源——并且其单位计算排放量已大幅下降——但其2019年至2024年间的温室气体总排放量却增加了54%。
- 在亚马逊最新的可持续发展报告 (https://sustainability.aboutamazon.com/2024-amazon-sustainability-report.pdf?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-_zcG7BpdpagrWj_qMRUq6xwAGtEfTbv4YradzERxm_eV0Uy3WuZ8H24KSsiQwgGsfnZRQv)中,该公司表示扩展AI的最大挑战之一是能源需求增加。该公司已在密西西比州和印第安纳州投资天然气发电厂,以满足附近数据中心的能源需求。它将核能视为其实现碳中和战略的关键部分,但计划中的核能资源要到2030年代才能上线。与此同时,亚马逊自2019年以来的总碳排放量增加了33%。
- Meta 最新的可持续发展报告 (https://sustainability.atmeta.com/wp-content/uploads/2025/08/Meta_2025-Sustainability-Report_.pdf?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-_zcG7BpdpagrWj_qMRUq6xwAGtEfTbv4YradzERxm_eV0Uy3WuZ8H24KSsiQwgGsfnZRQv)强调,实现净零的道路取决于新技术、供应商以及与全球联盟的合作。该公司正在建设私人燃气发电厂 (https://www.deeplearning.ai/the-batch/rather-than-rely-on-public-utilities-ai-companies-build-their-own-power-plants/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-_zcG7BpdpagrWj_qMRUq6xwAGtEfTbv4YradzERxm_eV0Uy3WuZ8H24KSsiQwgGsfnZRQv),为其包括位于路易斯安那州农村、迄今最大的5吉瓦设施在内的数据中心发电。它已投资于到2035年可支持高达6.6吉瓦新增和现有清洁能源的项目,包括地热、核能和储能,以更好地利用风能和太阳能。该公司2020年至2024年间的总排放量增加了超过60%,而其数据中心的电力消耗几乎增长了两倍。
- 虽然微软之前的可持续发展报告强调了在2030年前消除比其排放更多的温室气体方面的进展,但最新的版本 (https://cdn-dynmedia-1.microsoft.com/is/content/microsoftcorp/microsoft/msc/documents/presentations/CSR/2025-Microsoft-Environmental-Sustainability-Report.pdf?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-_zcG7BpdpagrWj_qMRUq6xwAGtEfTbv4YradzERxm_eV0Uy3WuZ8H24KSsiQwgGsfnZRQv)将这一目标描述为“一场马拉松,而非短跑”。微软最近与雪佛龙签署了一项协议,建造 (https://www.reuters.com/business/energy/microsoft-chevron-engine-no-1-sign-exclusive-deal-power-supply-2026-03-31/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-_zcG7BpdpagrWj_qMRUq6xwAGtEfTbv4YradzERxm_eV0Uy3WuZ8H24KSsiQwgGsfnZRQv)一座天然气发电厂,尽管在此之前它已签署了一份20年的购电协议,以重启核能...
相似文章
OpenAI Blog
OpenAI 推出 GPT-5.2,这是目前最强大的模型系列,在知识工作、代码生成、图像理解、长上下文理解和工具调用方面都有显著提升。GPT-5.2 Thinking 变体在专业基准测试中达到最先进的性能,在 44 个职业的 GDPval 任务中,70.9% 的表现超越了人类专家。
Reddit r/MachineLearning
研究人员构建了一个开源的政治坐标基准,包含14个政策领域的98个结构化问题,用于评估前沿LLM(GPT-5.3、Claude Opus 4.6、KIMI K2)。关键发现:拒绝模式与选择退出选项显著改变了模型定位。GPT-5.3在提供选择退出选项时100%拒绝回答问题,而KIMI K2虽然在其它方面表现进步立场,但在台湾/新疆问题上表现出特定主题的审查。
OpenAI Blog
OpenAI 发布 GPT-5 系统卡,详细说明了一个统一系统,包含快速主模型和深度推理模型,根据对话类型和复杂性智能路由,在幻觉减少、指令跟随和写作、编码和健康领域的实际应用方面取得显著进展。
OpenAI Blog
OpenAI发布了GPT-5.1,这是GPT-5系列中的一个新模型,它可以基于任务复杂度动态调整思考时间,在保持前沿智能的同时,性能比GPT-5快2-3倍。此次发布包括扩展的提示缓存(24小时保留)、新的编码工具(apply_patch和shell),以及针对延迟敏感应用的“无推理”模式。
OpenAI Blog
OpenAI 发布了 GPT-5.5,这是其前沿 AI 模型的重大升级,在保持高效与速度的同时,在智能体编码、研究以及多步骤任务执行等方面具备更强的能力。