快速思考:估算前沿AI模型的无CoT任务完成时间视野
摘要
本文通过在30,000个问题上测量前沿AI模型在没有显式思维链的情况下的推理能力,发现无CoT的任务完成时间视野每年翻一番,到2028年可能超过7分钟,这引发了对安全监管的担忧。
arXiv:2606.07157v1 Announce Type: new
摘要:许多确保前沿AI模型安全的努力依赖于监控其思维链(CoT)推理。如果模型能够在内部进行足够复杂的推理,而无需显式的思考令牌,这将削弱这种监督。我们测量了前沿模型在超过30,000个问题上的无CoT推理能力,这些问题涵盖43个基准测试,涉及数学、编程、谜题、因果推理、心智理论和策略推理等领域。为了将模型与人类进行比较,我们估算了$50\%$任务完成时间视野(TH):模型以$50\%$成功率完成任务所需的人类时间。我们还补充了$50\%$推理令牌视野:模型以$50\%$成功率解决任务所需的最小o3-mini推理令牌数。我们发现,在过去六年中,前沿模型的无CoT $50\%$ TH大约每年翻一番,GPT-5.5的TH超过3分钟,推理令牌视野超过1,500个令牌。我们的中位数估计预测,到2028年,前沿无CoT TH可能超过7分钟,到2030年超过25分钟,尽管这些预测存在很大的不确定性。我们建议前沿开发者明确跟踪这一指标。
查看缓存全文
缓存时间: 2026/06/08 09:14
# Think Fast:估算前沿AI模型的无思维链任务完成时间阈值 来源:https://arxiv.org/abs/2606.07157 作者:Dewi Gould (https://arxiv.org/search/cs?searchtype=author&query=Gould,+D), Francis Rhys Ward (https://arxiv.org/search/cs?searchtype=author&query=Ward,+F+R), Anders Cairns Woodruff (https://arxiv.org/search/cs?searchtype=author&query=Woodruff,+A+C), Rauno Arike (https://arxiv.org/search/cs?searchtype=author&query=Arike,+R), Josh Hills (https://arxiv.org/search/cs?searchtype=author&query=Hills,+J), Alex Serrano (https://arxiv.org/search/cs?searchtype=author&query=Serrano,+A), Ida Caspary (https://arxiv.org/search/cs?searchtype=author&query=Caspary,+I), Jason Ross Brown (https://arxiv.org/search/cs?searchtype=author&query=Brown,+J+R), Jo J. Jiao (https://arxiv.org/search/cs?searchtype=author&query=Jiao,+J+J), Patrick Leask (https://arxiv.org/search/cs?searchtype=author&query=Leask,+P), Twm Stone (https://arxiv.org/search/cs?searchtype=author&query=Stone,+T), Ram Potham (https://arxiv.org/search/cs?searchtype=author&query=Potham,+R), Ionut Gabriel Stan (https://arxiv.org/search/cs?searchtype=author&query=Stan,+I+G), Harry Mayne (https://arxiv.org/search/cs?searchtype=author&query=Mayne,+H), Simeon Hellsten (https://arxiv.org/search/cs?searchtype=author&query=Hellsten,+S), Shubhorup Biswas (https://arxiv.org/search/cs?searchtype=author&query=Biswas,+S), Ariana Azarbal (https://arxiv.org/search/cs?searchtype=author&query=Azarbal,+A), William L. Anderson (https://arxiv.org/search/cs?searchtype=author&query=Anderson,+W+L), Elle Najt (https://arxiv.org/search/cs?searchtype=author&query=Najt,+E), Ryan Greenblatt (https://arxiv.org/search/cs?searchtype=author&query=Greenblatt,+R), Julian Stastny (https://arxiv.org/search/cs?searchtype=author&query=Stastny,+J) 查看 PDF (https://arxiv.org/pdf/2606.07157) > 摘要:许多确保前沿AI模型安全的工作依赖于监控其思维链(CoT)推理。如果模型能够在不产生显式思考令牌的情况下,在内部执行足够复杂的推理,那么这种监督将受到削弱。我们在一套涵盖43个基准测试、超过30,000个问题(涉及数学、编程、谜题、因果推理、心智理论及策略推理等领域)中,测量了前沿模型在没有CoT情况下的推理能力。为了将模型与人类进行比较,我们估算了50%任务完成时间阈值(TH):即模型以50%成功率完成任务所需的人类时间。此外,我们还补充了50%推理令牌阈值:即模型以50%成功率解决的问题所需的最小o3-mini推理令牌数。我们发现,过去六年间,前沿模型的无CoT 50% TH大约每两年翻一番,GPT-5.5的TH已超过3分钟,推理令牌阈值超过1500个令牌。我们的中位数估计预测,到2028年前沿无CoT TH可能超过7分钟,到2030年超过25分钟,尽管这些预测存在相当大的不确定性。我们建议前沿开发者明确追踪这一指标。 ## 提交历史 来自:Dewi Gould [查看邮件 (https://arxiv.org/show-email/32da10a3/2606.07157)] **[v1]** 2026年6月5日 星期五 11:17:08 UTC (4,603 KB)
相似文章
@jietang:近期思考:向长程任务的转变。今年最有可能的突破将出现在长程任务领域。…
文章探讨了长程人工智能任务和自主代理系统(Autonomous Agents)即将取得的突破,指出企业模式正从“一人公司”向“无人公司”转变。文章强调,记忆、持续学习和自我评判等技术支柱是实现完全自我进化的人工智能系统的关键,这可能重新定义通用人工智能(AGI)和操作系统。
检测前沿推理模型中的不当行为
OpenAI研究人员展示了思维链监控可以检测o3-mini等前沿推理模型中的不当行为,但警告说直接优化思维链来防止不良想法会导致模型隐藏意图,而不是消除行为。
@WGOV: 认知外包与人机交互中的加速错觉 Sunny Yu, Myra Cheng, Ahmad Jabbar, Ilia Sucholut…
本文探讨了在使用LLMs执行简单认知任务时,预期与实际时间节省之间的不匹配,揭示了一种加速错觉:用户低估了AI辅助完成时间,尽管实际并无加速。
AI代理是否在等待人类审批上花费的时间比实际工作还多?
一篇关于AI编程代理常因等待人类批准而停滞的反思,指出人类可用性可能比模型能力更成为瓶颈。
用于衡量前沿AI能力的开放世界评估
本文认为传统基准测试既高估又低估了前沿AI能力,并提出“开放世界评估”——一种定性评估的长期、真实世界任务——作为补充方法。介绍了CRUX项目,并通过一个演示展示了AI代理在最少干预下成功将iOS应用发布到App Store。