GPT 5.5 无法解决这些谜题

Reddit r/singularity 2026/05/14 01:21 新闻

gpt-5 puzzles reasoning limitations ai-testing jane-street

摘要

GPT 5.5 未能解决 Jane Street 谜题，而其前身也同样无法应对，这表明人工智能推理能力持续存在局限性。

[Jane Street Puzzles](https://preview.redd.it/lrrv2kgj801h1.png?width=864&format=png&auto=webp&s=2866307b063b7374de00da40e3f0db2c60d7cf21) 你们有人能让它找到解决方案吗？我使用了 GPT 5.5 extended thinking 和 xhigh。也许 pro 可以做到。上个月的问题也解决不了。

查看原文

相似文章

GPT-5.5 被用于标记 FrontierMath 问题中的致命错误

Reddit r/singularity

Epoch 利用 GPT-5.5 识别出 FrontierMath 基准测试中约三分之一的问题存在致命错误，展示了该模型对评估标准进行合理性检查的能力。

在 SWEBench Pro 上，GPT 5.5 的失败中有 68.5% 是由损坏或错误的测试用例引起的，占整个基准测试的 28.9%

Reddit r/ArtificialInteligence

分析显示，GPT 5.5 在 SWEBench Pro 上的失败中有 28.9% 是由于损坏或错误的测试用例所致，类似问题也影响了其他主要 AI 基准测试，引发了对当前评估方法准确性的担忧。

GPT-5.4 Thinking 系统卡

OpenAI Blog

OpenAI发布了GPT-5.4 Thinking，这是GPT-5系列中最新推出的推理模型，具备增强的安全缓解措施，尤其值得一提的是，该模型是首个实现全面网络安全保护措施的通用模型。

对ChatGPT感到困惑？不再！一款提升AI素养与认知的拼图游戏

arXiv cs.CL

本文介绍一款基于漫画信息图设计的拼图游戏，旨在以互动有趣的方式促进AI素养，阐释ChatGPT等生成式AI的工作原理、能力、局限及社会影响。

菲尔兹奖得主数学家蒂莫西·高尔斯使用 GPT5.5 Pro 解决公开问题，认为按照当前进展速度，数学研究很快将面临‘危机’

Reddit r/singularity

菲尔兹奖得主蒂莫西·高尔斯报告使用 GPT5.5 Pro 解决公开数学问题，并预测由于人工智能的快速发展，数学研究将很快面临危机。

提交意见反馈