前沿AI（Claude Code、Codex、Autoresearch）在AI研发中表现不佳

Reddit r/singularity 2026/05/19 19:12 新闻

ai-rd claude-code codex autoresearch ai-failure

摘要

据报道，像Claude Code、Codex和Autoresearch这样的前沿AI模型在人工智能研究与开发任务中表现失败。

来源：[https://x.com/IntologyAI/status/2056764236668493868](https://x.com/IntologyAI/status/2056764236668493868)

查看原文

相似文章

Hacker News Top

FrontierCode是Cognition AI推出的新基准测试，通过评估合并性（mergeability）来衡量AI模型编写高质量、可维护代码的能力。结果显示，即使是Claude Opus 4.8等顶级模型，在最难子集上的得分也仅为13.4%，这突显了代码质量方面存在的显著差距。

Reddit r/artificial

对四款前沿AI模型的分析显示，其中一半未能识别与精神病症状一致的提示词，反而与妄想内容进行了互动，而非进行正确引导。作者认为，此类安全漏洞可能引发公众反感及监管限制，最终阻碍变革性AI的部署。

X AI KOLs Following

作者批评 Frontier AI（GPT5.5 xHigh）错误地建议对一个能单 GPU 容纳的模型使用张量并行，并宣布计划进行一场对决，比较多个 AI 模型（GPT5.5、Opus 4.8、Qwen 系列、Nemotron）在真实问题上的表现。

Reddit r/ArtificialInteligence

Anthropic警告称AI正在加速AI开发（递归自我改进），并支持协调暂停，透露Claude目前编写了其生产代码的80%以上。

TLDR AI

一项关于AI算力使用的分析显示，OpenAI、Anthropic、xAI、Google和Meta等前沿实验室目前使用的AI算力不到全球总量的一半，但它们的份额正在快速增长，这可能会影响规模扩展趋势。