前沿AI(Claude Code、Codex、Autoresearch)在AI研发中表现不佳

Reddit r/singularity 新闻

摘要

据报道,像Claude Code、Codex和Autoresearch这样的前沿AI模型在人工智能研究与开发任务中表现失败。

来源:[https://x.com/IntologyAI/status/2056764236668493868](https://x.com/IntologyAI/status/2056764236668493868)
查看原文

相似文章

FrontierCode

Hacker News Top

FrontierCode是Cognition AI推出的新基准测试,通过评估合并性(mergeability)来衡量AI模型编写高质量、可维护代码的能力。结果显示,即使是Claude Opus 4.8等顶级模型,在最难子集上的得分也仅为13.4%,这突显了代码质量方面存在的显著差距。

我用精神病提示词测试了4款前沿AI,一半未能通过。

Reddit r/artificial

对四款前沿AI模型的分析显示,其中一半未能识别与精神病症状一致的提示词,反而与妄想内容进行了互动,而非进行正确引导。作者认为,此类安全漏洞可能引发公众反感及监管限制,最终阻碍变革性AI的部署。