标签
OpenAI的GPT-5 Pro帮助免疫学家Derya Unutmaz解开了一个关于葡萄糖如何影响T细胞分化的三年之谜,它提出脱氧葡萄糖会干扰IL-2蛋白的构建,从而导致促炎性Th17细胞增加。
多个AI模型发布延迟:GPT-5.6预计推迟至7月中旬,DeepMind的3.5 Pro延期发布,而OpenAI的Bidi语音模型和面向企业的Claude Sonnet 5取得进展。
一位用户询问OpenAI即将推出的功能中哪个更令人兴奋:传闻中的GPT-5.6模型,还是支持实时同时听说的双向语音模式(BiDi)。
在Minebench(Minecraft)基准测试中,对GPT和Claude Opus多种模型版本进行比较,并针对特定建筑对GPT-5.5和Fable 5进行了详细评判。
本文全面介绍了 OpenAI Codex 桌面应用的功能与使用方法,包括项目管理、技能/插件系统、自动化、多任务并行开发策略,并提供了实战案例和风险提示,旨在帮助用户高效利用 AI 代理进行并行开发。
Jiayuan Zhang分享了对M3模型coding能力的初步体验,称相比m2.7有质的提升,但1-shot结果不如Opus 4.6/4.7和GPT5.5全面。
表达了对即将到来的 GPT-5.6 与 Mythos 之间竞争的兴奋,声称 GPT-5.6 将在性价比上胜出。
YacineMTB 认为 GPT 5.5(可能是一个笔误)超越了 Anthropic 的 Opus 模型,暗示用户正在离开 Opus。Dylan Field 批评 Opus 4.8 好奇心下降,谄媚性增加。
Cerebras 首席财务官宣布,公司正在其芯片上内部运行 GPT5.4 和 GPT5.5,并即将向公众发布这些模型,承诺提供高速 AI 推理。
中国学生正通过闲鱼/淘宝上的代理卖家购买大幅折扣的GPT-5.4/5.5和Claude API访问权限,只需约1美元即可每天消耗超过1亿个token,并尽情进行vibecoding。
LightOn 使用一个 1.5 亿参数的后期交互模型,达到了 GPT-5 级别的深度研究检索性能,这是一项了不起的成就。
这份实地报告论证称,商业 AI 的幻觉是“压缩”带来的结构性问题,而非对齐失败,并引用了 GPT-5.5、Gemini 3.1 和 Claude Opus 4.7 的高错误率。报告还详细披露了一起涉及 Anthropic Claude Code 的重大源代码泄露事件,揭示了未发布模型的内部基准测试数据和隐藏功能。
Conductor 已将其默认编程框架更新为使用搭载 GPT-5.5 的 Codex,使其成为新用户使用的标准智能体。
本文介绍了 IndustryBench,这是一个针对中文工业采购问答的大语言模型基准测试,以国家标准为参照评估模型表现,突显了安全合规方面的差距。研究揭示,在考虑安全违规的情况下,扩展推理往往会导致安全调整后的评分降低,并改变模型的排名。
Sam Altman 暗示未来将发布一款名为“5.5”的 AI 模型,形容其具有自闭症天才的特质,且命名风格标新立异。
一位中国麻省理工学院的学生发布了WindsurfAPI,这是一个开源代理,将Windsurf内部的AI模型(包括Claude Opus 4.7和GPT-5系列)免费转换为标准的OpenAI和Anthropic兼容API,具有账户池化和速率限制隔离功能。
DHH 称赞 GPT-5.5 在低推理设置下的表现和效率,指出其超越了 Opus 和 Kimi。
OpenAI 推出了 GPT-Realtime-2,将 GPT-5 级别的推理能力集成到实时语音 API 中,使语音助手能够在对话过程中进行实时思考和解决问题。
OpenAI发布了GPT-Realtime-2语音模型,具备GPT-5级别的推理能力和128,000 token上下文窗口,支持实时翻译70多种语言到13种输出语言,在Big Bench Audio Intelligence评测中达到96.6%准确率,Greg Brockman称其为语音翻译领域的里程碑。