你实际在生产环境中运行的是哪个推理模型?

Reddit r/AI_Agents 新闻

摘要

一位从业者寻求关于 o3、Claude extended thinking、Gemini 2.5 Pro 和 Ring 2.6 1T 等推理模型在生产环境中的代理任务上的真实反馈,质疑 Ring 的双推理强度模式在实际表现与基准测试之间的差异。

我需要为生产环境中的代理工作选择一个推理模型。常见的候选显而易见(o3、Claude extended thinking、Gemini 2.5 Pro),但我也在关注 Ring 2.6 1T,它有两种推理强度模式——high 用于快速的多步代理循环,xhigh 用于更困难的问题。双模式方法吸引了我,因为并非每次代理调用都需要最大推理深度。但我找不到关于它的实际反馈。基准测试确实存在(PinchBench 87.60,Tau2-Bench Telecom 95.32),但我不相信基准测试能告诉我在实际的多步代理任务中,它如何处理混乱的中间状态。在实际中,high/xhigh 的划分效果如何?速度差异是否明显?在较长的代理运行中是否保持稳定?
查看原文

相似文章

推理模型难以控制其思维链,但这其实是好事

OpenAI Blog

OpenAI的研究人员研究了推理模型是否能故意隐藏其思维链以逃避监控,发现当前模型即使知道自己被监控,也难以控制自己的推理过程。他们推出了CoT-Control,一个包含超过13,000个任务的开源评估套件,用于衡量推理模型中思维链的可控性。

OpenAI o3-mini

OpenAI Blog

OpenAI 发布 o3-mini,一款成本高效的推理模型,具备强大的 STEM 能力,现已在 ChatGPT 和 API 中可用,支持函数调用、结构化输出和三个推理力度级别。该模型在数学和编码方面与 o1 性能相当,同时更快且更便宜,免费计划用户首次获得推理模型的访问权限。

经济学与 OpenAI o1 的推理能力

OpenAI Blog

OpenAI 发布了 o1 模型系列,该模型具备扩展推理能力,通过在回应前花费更多时间思考,来解决科学、编码和数学领域的复杂问题。