标签
Devin AI现原生支持在创建PR后自动进行端到端测试和视频录制,并将录制的屏幕截图发送给审查者以便快速验证。
Crabbox 是一种新工具,可为 AI 编码代理提供隔离的云环境来测试和验证 PR,使其能够并行工作而不会发生冲突,并减少审查瓶颈。
Bain & Company正在使用AI 'vibecoding' 复制品来测试潜在的软件收购目标,模拟它们在新所有权下的运营方式。
Selector Forge 是一款浏览器扩展,利用AI生成并验证可靠的CSS/XPath选择器,用于网页自动化,帮助开发者构建稳健的选择器,适用于测试、数据抓取和页面自动化。
一位 Rust 开发者对 SQLx 测试的增量重建时间进行了性能分析和优化,识别了调试信息生成和过程宏开销等瓶颈,并提出了加速测试编译的改进方案。
Ramp 采用分层发布策略,每日推送大功能,将发布拆分为早期访问(EA)和正式可用(GA)两层,EA 阶段覆盖 10% 客户和 5000+ 企业,GA 前需提交 demo、KPI、客户反馈、支持准备和上线计划等证据,以加速迭代。
本文介绍了claude-browser-stack和agent-pods,这是一套自动化浏览器开发循环的工具,通过让AI代理调试API、扫描漏洞、记录用户流程并向Claude提供视觉上下文,从而在编码和验证之间形成闭环。
关于在生产环境中评估AI代理的个人经验教训,包括将症状映射到各层、使用轨迹评估、校准LLM评判者、将失败转化为测试用例以及进行对抗性测试。
Greptile 推出 T-Rex,该功能可在沙箱中运行你的分支,通过模拟 API 调用、点击 UI 界面以及运行单元测试来发现错误,相比基础版 Greptile 能多捕获约 20% 的错误。
Yoyo是一个在GitHub Action上每8小时自我演进的AI agent,其成功关键在于一个无状态agent加持久化状态(git仓库)的harness设计。文章深入分析了记忆、上下文、反馈、验证等问题的朴素解法,强调持久化状态比模型本身更关键。
讨论AI智能体使用工具的安全风险,重点关注提示注入这一实际威胁——不受信任的文本可能改变智能体行为,以及在授予权限前需要进行可重复测试。
Adaline 2.0 是一个智能体自我改进层,它观察真实用户交互,按模式对失败进行聚类,每天自动编写数百个测试,并在部署前生成新的智能体候选版本供审批。
Iris 是一个 MCP 服务器,运行在你的真实应用中,通过检查条件并返回通过/失败判定及证据来验证 AI 代理(例如 Claude Code、Codex、Hermes)的工作,与基于快照的方法相比,减少了误报和令牌使用。
作者描述了一次语音代理通话在600秒时被无预警切断的情况,并提出了一种优雅处理最大通话时长的测试方法,包括切断前警告和状态保存。
本文介绍了从零构建工业级技能(Skill)的方法,强调精准触发、权限收敛、可评测迭代等核心特性,以及构建评分标准、测试用例和质量门禁脚本的重要性,展示了如何在Codex等Agent环境中实现专业、可维护的技能包。
讨论了一种针对AI智能体自我修改的门控方法,智能体通过fork自身、提出补丁、并运行多项测试(静态/沙箱/diff)后,修改才会生效。
作者正在构建一个工具,通过模拟真实用户对话并提供通过/失败报告来自动测试AI代理,从而让开发者免于手动测试。
本文认为,由于输入空间无限且行为非确定性,AI代理使用固定输入和预期输出的标准测试套件并不充分,主张应采用基于属性的测试方法。
Antioch 推出了 Antioch Agent,这是一个基于浏览器的机器人模拟器,让开发者可以在没有物理硬件的情况下,在封闭的智能体循环中测试机器人软件,从而加速开发周期。