前沿AI(Claude Code、Codex、Autoresearch)在AI研发中表现不佳
摘要
据报道,像Claude Code、Codex和Autoresearch这样的前沿AI模型在人工智能研究与开发任务中表现失败。
来源:[https://x.com/IntologyAI/status/2056764236668493868](https://x.com/IntologyAI/status/2056764236668493868)
相似文章
FrontierCode
FrontierCode是Cognition AI推出的新基准测试,通过评估合并性(mergeability)来衡量AI模型编写高质量、可维护代码的能力。结果显示,即使是Claude Opus 4.8等顶级模型,在最难子集上的得分也仅为13.4%,这突显了代码质量方面存在的显著差距。
我用精神病提示词测试了4款前沿AI,一半未能通过。
对四款前沿AI模型的分析显示,其中一半未能识别与精神病症状一致的提示词,反而与妄想内容进行了互动,而非进行正确引导。作者认为,此类安全漏洞可能引发公众反感及监管限制,最终阻碍变革性AI的部署。
@auroter: Frontier AI 简直脑死亡。GPT5.5 xHigh 在 Codex 中认为我应该使用张量并行来部署 Qwen 3.6 27B 在我的系统上…
作者批评 Frontier AI(GPT5.5 xHigh)错误地建议对一个能单 GPU 容纳的模型使用张量并行,并宣布计划进行一场对决,比较多个 AI 模型(GPT5.5、Opus 4.8、Qwen 系列、Nemotron)在真实问题上的表现。
Anthropic警告自我改进的AI,支持前沿AI暂停,称Claude编写了公司80%的代码
Anthropic警告称AI正在加速AI开发(递归自我改进),并支持协调暂停,透露Claude目前编写了其生产代码的80%以上。
前沿实验室尚未使用大部分AI算力(26分钟阅读)
一项关于AI算力使用的分析显示,OpenAI、Anthropic、xAI、Google和Meta等前沿实验室目前使用的AI算力不到全球总量的一半,但它们的份额正在快速增长,这可能会影响规模扩展趋势。