标签
Codex 已更新,支持通过应用内浏览器在各种视口尺寸下测试 Web 应用,具备自动点击验证、长时间运行的截图反馈,以及通过禁用动画加速测试的功能。
PACT 推出了针对 LLM 的对抗性谈判基准测试,通过 20 轮买卖双方议价博弈来评估模型的说服力与适应能力。顶尖模型包括 GPT-5.5 和 Opus 4.7,评分由 Glicko-2 算法计算,并采用类 Elo 评分体系展示。
OpenAI 发布了对为 GPT-4o 安全测试和系统卡开发做出贡献的外部红队测试人员和评估人员的致谢。该文档表彰了众多个人研究人员和组织,包括 METR 和 Apollo Research。