标签
Scott Clark,Distributional 联合创始人兼首席执行官,将在2026年7月18日至19日于旧金山举行的AGI Summit SF 2026上,就AI可靠性和测试发表演讲。
Momentic 宣布重大平台更新,推出基于AI的知识库和自主测试代理,以应对代码速度与软件质量之间日益扩大的差距。
一条推文认为,AI 应用测试应成为编码应用的一流功能,并指出如果让 AI 自行尝试应用,许多明显问题都可以被发现。
本文质疑当前的AI基准测试是否足以评估AI在实时、后台环境(如语音通话、自动驾驶和智能眼镜)中的表现,因为这些测试假设用户已做好准备。
团队成员分享了使用AI(DeepSeek V4 Flash)自动创建E2E测试用例并完成开发和调试,一次通过验收的体验,展示了AI辅助开发的潜力。
文章认为传统的聊天机器人QA是有缺陷的,因为它只测试了理想路径(happy path),并提出使用AI驱动的用户模拟器,通过多样化的角色和边缘案例来攻击机器人,在部署前发现漏洞。
特朗普关于前沿模型部署前测试的AI行政令面临挑战,原因是安全团队被削弱以及透明度与可观测性问题,可能限制其有效性。
升级 Playwright MCP,为 AI 代理提供完整的 DOM 序列化,相比默认的 ARIA 快照,提升了交互元素的可见性。已开源,供构建 AI 测试代理的开发人员使用。
微软发布了ASSERT,这是一个开源框架,可根据自然语言描述生成AI行为测试,使开发者能够创建特定于应用程序的评估并持续监控AI系统。
语音助手的一个简单测试:给出一个不明确的指令(例如“使用存档地址”),看看助手在确认前是否会要求澄清。后续问题的质量揭示了助手的可靠性。
讨论AI工作流中干净的基准测试环境与混乱的真实世界使用之间的常见差距,导致生产环境失败,并提及评估平台如Confident AI、Braintrust和Langfuse。
一个基于Claude Code构建的新工具,可以通过导航每个屏幕、测试流程、读取调试日志,并从单个提示生成结构化漏洞报告,来实现iOS应用的自主测试。
文章描述了使用Grok 4.3进行的一项测试,探讨所谓的“存在逻辑架构”如何影响AI在全球责任方面的决策。结果显示,非结构化提示与框架化提示之间的处理方法存在明显差异。
GPT 5.5 未能解决 Jane Street 谜题,而其前身也同样无法应对,这表明人工智能推理能力持续存在局限性。
Codex 已更新,支持通过应用内浏览器在各种视口尺寸下测试 Web 应用,具备自动点击验证、长时间运行的截图反馈,以及通过禁用动画加速测试的功能。
PACT 推出了针对 LLM 的对抗性谈判基准测试,通过 20 轮买卖双方议价博弈来评估模型的说服力与适应能力。顶尖模型包括 GPT-5.5 和 Opus 4.7,评分由 Glicko-2 算法计算,并采用类 Elo 评分体系展示。
OpenAI 发布了对为 GPT-4o 安全测试和系统卡开发做出贡献的外部红队测试人员和评估人员的致谢。该文档表彰了众多个人研究人员和组织,包括 METR 和 Apollo Research。