摘要
OpenAI 发布了 o3 和 o4-mini 模型,这些模型能够在链式思维过程中对图像进行推理,通过裁剪和缩放等原生图像操作工具实现视觉理解,无需额外的专用模型。这些模型在包括 STEM 问题、图表阅读和视觉搜索任务在内的多模态基准上达到了最先进的性能。
暂无内容
查看缓存全文
缓存时间:
2026/04/20 14:48
# 用图像进行思考
来源:https://openai.com/index/thinking-with-images/
OpenAI o3 和 o4-mini(https://openai.com/index/introducing-o3-and-o4-mini/)是我们 o 系列最新的视觉推理模型。这是我们的模型首次能够在思维链中用图像进行思考——而不仅仅是查看图像。
与我们早期的 OpenAI o1 模型类似,o3 和 o4-mini 经过训练可以在回答前进行更长时间的思考,并在回复用户前使用长的内部思维链。o3 和 o4-mini 通过在思维链中用图像进行思考进一步扩展了这种能力,这是通过使用工具转换用户上传的图像实现的,使它们能够裁剪、放大和旋转图像,以及执行其他简单的图像处理技术。更重要的是,这些功能是原生内置的,无需依赖单独的专门模型。
ChatGPT 增强的视觉智能帮助您通过比以往任何时候都更全面、准确和可靠地分析图像来解决更难的问题。它可以将高级推理与网络搜索和图像处理等工具无缝结合——自动放大、裁剪、翻转或增强您的图像——甚至从不完美的照片中提取见解。例如,您可以上传一张经济学问题集的照片以获得分步说明,或分享构建错误的屏幕截图以快速获得根本原因分析。
这种方法为测试时计算扩展启用了一个新的轴线,无缝地融合了视觉和文本推理,如多模态基准上的最先进性能所反映的那样,标志着向多模态推理迈出的重要一步。
用图像进行思考使您能够更轻松地与 ChatGPT 交互。您可以通过拍摄照片来提问,而无需担心物体的位置——无论文本是否颠倒或一张照片中是否有多个物理问题。即使物体初看并不明显,视觉推理也允许模型放大以看得更清楚。
*所有示例均由 OpenAI o3 完成。*
我们最新的视觉推理模型与 Python 数据分析、网络搜索、图像生成等其他工具协同工作,以创意且有效的方式解决更复杂的问题,为用户提供我们首个多模态代理体验。
为了突出与我们以前的多模态模型相比视觉推理的改进,我们在多种人类考试和机器学习基准上测试了 OpenAI o3 和 o4-mini。这些新的视觉推理模型在我们测试的**所有**多模态任务上都显著优于其前身。
*所有模型均在高"推理努力"设置下评估——类似于 ChatGPT 中的"o4-mini-high"等变体。*
特别是,用图像进行思考——不依赖浏览——在我们评估的所有感知基准上都带来了显著改进。我们的模型在 STEM 问题回答(MMMU、MathVista)、图表阅读和推理(CharXiv)、感知基元(VLMs are Blind)和视觉搜索(V*)中设定了新的最先进性能。在 V* 上,我们的视觉推理方法达到了 95.7% 的准确率,基本上解决了该基准。
用图像进行思考目前存在以下限制:
- **过长的推理链:**模型可能执行冗余或不必要的工具调用和图像处理步骤,导致思维链过长。
- **感知错误:**模型仍然可能犯基本的感知错误。即使工具调用正确地推进了推理过程,视觉误解也可能导致最终答案错误。
- **可靠性:**在多次尝试解决问题时,模型可能尝试不同的视觉推理过程,其中一些可能导致错误的结果。
OpenAI o3 和 o4-mini 显著推进了最先进的视觉推理能力,代表了向更广泛多模态推理迈进的重要一步。这些模型在视觉感知任务上提供同类最佳的准确性,使其能够解决以前无法解决的问题。
我们正在不断改进模型在图像上的推理能力,使其更加简洁、更少冗余和更加可靠。我们很高兴继续我们在多模态推理方面的研究,并期待人们探索这些改进如何增强他们的日常工作。
---
**4 月 16 日更新:**o3 在 Charxiv-r、Mathvista 和 vlmsareblind 上的结果已更新,以反映原始评估中不存在的系统提示更改。
相似文章
OpenAI Blog
OpenAI 发布了最新的推理模型 o3 和 o4-mini,可以自主访问和组合所有 ChatGPT 工具(网络搜索、代码执行、图像分析、图像生成)。o3 在编程、数学和科学基准测试中达到业界最先进水平,主要错误比 o1 少 20%,而 o4-mini 则提供成本和速度优化的高效推理能力。
OpenAI Blog
OpenAI 发布了 o3 和 o4-mini 模型的系统卡,这些模型具有先进的推理能力,结合了工具集成(网络浏览、Python、图像分析等),并根据 OpenAI 的 Preparedness Framework v2 在生物、网络安全和 AI 自我改进等领域进行了安全性评估。
OpenAI Blog
OpenAI 发布 o3-mini,一款成本高效的推理模型,具备强大的 STEM 能力,现已在 ChatGPT 和 API 中可用,支持函数调用、结构化输出和三个推理力度级别。该模型在数学和编码方面与 o1 性能相当,同时更快且更便宜,免费计划用户首次获得推理模型的访问权限。
Product Hunt
OpenAI 发布 ChatGPT Images 2.0,首款具备思考能力的图像模型,可在视觉任务中实现更强推理。
OpenAI Blog
OpenAI 发布了 o1-mini,一款成本高效的推理模型,在数学和编码等 STEM 任务上与 o1 性能相当,但价格便宜 80%。该模型针对推理密集型应用进行了优化,现已向 API 用户和 ChatGPT Plus/Team/Enterprise/Edu 订阅者开放。