快速思考：估算前沿AI模型的无CoT任务完成时间视野

arXiv cs.AI 2026/06/08 04:00 论文

ai-safety chain-of-thought reasoning frontier-models benchmarks task-completion time-horizons

摘要

本文通过在30,000个问题上测量前沿AI模型在没有显式思维链的情况下的推理能力，发现无CoT的任务完成时间视野每年翻一番，到2028年可能超过7分钟，这引发了对安全监管的担忧。

arXiv:2606.07157v1 Announce Type: new 摘要：许多确保前沿AI模型安全的努力依赖于监控其思维链（CoT）推理。如果模型能够在内部进行足够复杂的推理，而无需显式的思考令牌，这将削弱这种监督。我们测量了前沿模型在超过30,000个问题上的无CoT推理能力，这些问题涵盖43个基准测试，涉及数学、编程、谜题、因果推理、心智理论和策略推理等领域。为了将模型与人类进行比较，我们估算了$50\%$任务完成时间视野（TH）：模型以$50\%$成功率完成任务所需的人类时间。我们还补充了$50\%$推理令牌视野：模型以$50\%$成功率解决任务所需的最小o3-mini推理令牌数。我们发现，在过去六年中，前沿模型的无CoT $50\%$ TH大约每年翻一番，GPT-5.5的TH超过3分钟，推理令牌视野超过1,500个令牌。我们的中位数估计预测，到2028年，前沿无CoT TH可能超过7分钟，到2030年超过25分钟，尽管这些预测存在很大的不确定性。我们建议前沿开发者明确跟踪这一指标。

查看原文

查看缓存全文

缓存时间: 2026/06/08 09:14

# Think Fast：估算前沿AI模型的无思维链任务完成时间阈值
来源：https://arxiv.org/abs/2606.07157
作者：Dewi Gould (https://arxiv.org/search/cs?searchtype=author&query=Gould,+D), Francis Rhys Ward (https://arxiv.org/search/cs?searchtype=author&query=Ward,+F+R), Anders Cairns Woodruff (https://arxiv.org/search/cs?searchtype=author&query=Woodruff,+A+C), Rauno Arike (https://arxiv.org/search/cs?searchtype=author&query=Arike,+R), Josh Hills (https://arxiv.org/search/cs?searchtype=author&query=Hills,+J), Alex Serrano (https://arxiv.org/search/cs?searchtype=author&query=Serrano,+A), Ida Caspary (https://arxiv.org/search/cs?searchtype=author&query=Caspary,+I), Jason Ross Brown (https://arxiv.org/search/cs?searchtype=author&query=Brown,+J+R), Jo J. Jiao (https://arxiv.org/search/cs?searchtype=author&query=Jiao,+J+J), Patrick Leask (https://arxiv.org/search/cs?searchtype=author&query=Leask,+P), Twm Stone (https://arxiv.org/search/cs?searchtype=author&query=Stone,+T), Ram Potham (https://arxiv.org/search/cs?searchtype=author&query=Potham,+R), Ionut Gabriel Stan (https://arxiv.org/search/cs?searchtype=author&query=Stan,+I+G), Harry Mayne (https://arxiv.org/search/cs?searchtype=author&query=Mayne,+H), Simeon Hellsten (https://arxiv.org/search/cs?searchtype=author&query=Hellsten,+S), Shubhorup Biswas (https://arxiv.org/search/cs?searchtype=author&query=Biswas,+S), Ariana Azarbal (https://arxiv.org/search/cs?searchtype=author&query=Azarbal,+A), William L. Anderson (https://arxiv.org/search/cs?searchtype=author&query=Anderson,+W+L), Elle Najt (https://arxiv.org/search/cs?searchtype=author&query=Najt,+E), Ryan Greenblatt (https://arxiv.org/search/cs?searchtype=author&query=Greenblatt,+R), Julian Stastny (https://arxiv.org/search/cs?searchtype=author&query=Stastny,+J)

查看 PDF (https://arxiv.org/pdf/2606.07157)

> 摘要：许多确保前沿AI模型安全的工作依赖于监控其思维链（CoT）推理。如果模型能够在不产生显式思考令牌的情况下，在内部执行足够复杂的推理，那么这种监督将受到削弱。我们在一套涵盖43个基准测试、超过30,000个问题（涉及数学、编程、谜题、因果推理、心智理论及策略推理等领域）中，测量了前沿模型在没有CoT情况下的推理能力。为了将模型与人类进行比较，我们估算了50%任务完成时间阈值（TH）：即模型以50%成功率完成任务所需的人类时间。此外，我们还补充了50%推理令牌阈值：即模型以50%成功率解决的问题所需的最小o3-mini推理令牌数。我们发现，过去六年间，前沿模型的无CoT 50% TH大约每两年翻一番，GPT-5.5的TH已超过3分钟，推理令牌阈值超过1500个令牌。我们的中位数估计预测，到2028年前沿无CoT TH可能超过7分钟，到2030年超过25分钟，尽管这些预测存在相当大的不确定性。我们建议前沿开发者明确追踪这一指标。

## 提交历史

来自：Dewi Gould [查看邮件 (https://arxiv.org/show-email/32da10a3/2606.07157)] **[v1]** 2026年6月5日 星期五 11:17:08 UTC (4,603 KB)

快速思考：估算前沿AI模型的无CoT任务完成时间视野

相似文章

@jietang：近期思考：向长程任务的转变。今年最有可能的突破将出现在长程任务领域。…

检测前沿推理模型中的不当行为

@WGOV: 认知外包与人机交互中的加速错觉 Sunny Yu, Myra Cheng, Ahmad Jabbar, Ilia Sucholut…

AI代理是否在等待人类审批上花费的时间比实际工作还多？

用于衡量前沿AI能力的开放世界评估

提交意见反馈