ai-testing

标签

Cards List
#ai-testing

@JamesZmSun: Codex 现在可以使用应用内浏览器在不同视口尺寸下测试您的应用!它将控制设备工具栏……

X AI KOLs Following · 15小时前

Codex 已更新,支持通过应用内浏览器在各种视口尺寸下测试 Web 应用,具备自动点击验证、长时间运行的截图反馈,以及通过禁用动画加速测试的功能。

0 人收藏 0 人点赞
#ai-testing

PACT,LLM 正面交锋谈判基准。20 轮买卖双方议价博弈:每轮 AI 可互发消息,买方提交出价,卖方提交要价。若出价 ≥ 要价,则以中间价成交。涵盖数千场对局。

Reddit r/singularity · 2天前

PACT 推出了针对 LLM 的对抗性谈判基准测试,通过 20 轮买卖双方议价博弈来评估模型的说服力与适应能力。顶尖模型包括 GPT-5.5 和 Opus 4.7,评分由 Glicko-2 算法计算,并采用类 Elo 评分体系展示。

0 人收藏 0 人点赞
#ai-testing

GPT-4o 系统卡外部测试人员致谢

OpenAI Blog · 2024-08-08 缓存

OpenAI 发布了对为 GPT-4o 安全测试和系统卡开发做出贡献的外部红队测试人员和评估人员的致谢。该文档表彰了众多个人研究人员和组织,包括 METR 和 Apollo Research。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈