testing

#testing

@sairahul1: 我真心不明白为什么大家还没用这个。有一个 Claude Code 功能：→ 运行你的测试…

X AI KOLs Timeline ↗ · 20小时前缓存

Sai Rahul 重点介绍了 Claude Code 的 Hooks 功能，该功能可在每次编辑后自动运行测试，阻止破坏性的 bash 命令，记录花费，发送 Slack 提醒，并自动重写错误输出。

0 人收藏 0 人点赞

#testing

@dabit3: 这是@DevinAI的原生功能，且（可选地）随每次PR附带！

X AI KOLs Following ↗ · 昨天缓存

Devin AI现原生支持在创建PR后自动进行端到端测试和视频录制，并将录制的屏幕截图发送给审查者以便快速验证。

0 人收藏 0 人点赞

#testing

@BenjaminDEKR: 在帕洛阿尔托/圣何塞待了一周，看到不少特斯拉Cybercab...这些显然有方向盘…

X AI KOLs Following ↗ · 昨天缓存

一位Twitter用户报告在帕洛阿尔托和圣何塞看到多辆带方向盘和测试驾驶员的特斯拉Cybercab原型车，表明测试仍在继续。

0 人收藏 0 人点赞

#testing

@jasonzhou1993: https://x.com/jasonzhou1993/status/2069413003897012435

X AI KOLs Timeline ↗ · 昨天缓存

Crabbox 是一种新工具，可为 AI 编码代理提供隔离的云环境来测试和验证 PR，使其能够并行工作而不会发生冲突，并减少审查瓶颈。

0 人收藏 0 人点赞

#testing

Bain通过vibecoding AI复制品测试软件收购目标

Hacker News Top ↗ · 2天前

Bain & Company正在使用AI 'vibecoding' 复制品来测试潜在的软件收购目标，模拟它们在新所有权下的运营方式。

0 人收藏 0 人点赞

#testing

Show HN：Selector Forge —— 浏览器扩展，利用AI生成弹性的选择器

Hacker News Top ↗ · 2天前缓存

Selector Forge 是一款浏览器扩展，利用AI生成并验证可靠的CSS/XPath选择器，用于网页自动化，帮助开发者构建稳健的选择器，适用于测试、数据抓取和页面自动化。

0 人收藏 0 人点赞

#testing

优化 #[sqlx::test] 的重建时间

Lobsters Hottest ↗ · 3天前缓存

一位 Rust 开发者对 SQLx 测试的增量重建时间进行了性能分析和优化，识别了调试信息生成和过程宏开销等瓶颈，并提出了加速测试编译的改进方案。

0 人收藏 0 人点赞

#testing

@gdb: 使用codex测试你应用中的每一个功能：

X AI KOLs Following ↗ · 3天前缓存

使用Codex通过生成用户故事并在迭代循环中在电子表格中跟踪功能状态，来自动化应用测试。

0 人收藏 0 人点赞

#testing

Show HN: Pure Effect – 无需数据库，在笔记本上复现生产环境bug

Hacker News Top ↗ · 3天前缓存

Pure Effect 是一个零依赖的 JavaScript/TypeScript 效应库，通过将副作用表示为纯数据来分离业务逻辑与 I/O，无需数据库即可复现生产环境 bug。

0 人收藏 0 人点赞

#testing

@FinanceYF5: 2/ 速度要分层 Ramp 每天发大功能，没让领导追每个细节，而是把发布拆成两层。随时进 early access，10% 客户、5000+ 家企业做测试组；GA 前必须交证据：3 分钟 demo、KPI、客户反馈、支持准备和上线计划。

X AI KOLs Following ↗ · 4天前缓存

Ramp 采用分层发布策略，每日推送大功能，将发布拆分为早期访问（EA）和正式可用（GA）两层，EA 阶段覆盖 10% 客户和 5000+ 企业，GA 前需提交 demo、KPI、客户反馈、支持准备和上线计划等证据，以加速迭代。

0 人收藏 0 人点赞

#testing

与Claude Code实现浏览器开发闭环的出色开发工具

Reddit r/AI_Agents ↗ · 2026-06-18

本文介绍了claude-browser-stack和agent-pods，这是一套自动化浏览器开发循环的工具，通过让AI代理调试API、扫描漏洞、记录用户流程并向Claude提供视觉上下文，从而在编码和验证之间形成闭环。

0 人收藏 0 人点赞

#testing

在生产环境中评估AI代理之前我希望知道的事情

Reddit r/AI_Agents ↗ · 2026-06-16

关于在生产环境中评估AI代理的个人经验教训，包括将症状映射到各层、使用轨迹评估、校准LLM评判者、将失败转化为测试用例以及进行对抗性测试。

0 人收藏 0 人点赞

#testing

@dakshgup: 介绍 T-Rex，启用 T-Rex 后，Greptile 不仅能审查你的 PR，还能在沙箱中运行你的分支以发现错误……

X AI KOLs Following ↗ · 2026-06-15 缓存

Greptile 推出 T-Rex，该功能可在沙箱中运行你的分支，通过模拟 API 调用、点击 UI 界面以及运行单元测试来发现错误，相比基础版 Greptile 能多捕获约 20% 的错误。

0 人收藏 0 人点赞

#testing

@yuanhao: https://x.com/yuanhao/status/2066341005847142674

X AI KOLs Timeline ↗ · 2026-06-15 缓存

Yoyo是一个在GitHub Action上每8小时自我演进的AI agent，其成功关键在于一个无状态agent加持久化状态（git仓库）的harness设计。文章深入分析了记忆、上下文、反馈、验证等问题的朴素解法，强调持久化状态比模型本身更关键。

0 人收藏 0 人点赞

#testing

对于使用工具的智能体，安全边界应划在哪里？

Reddit r/AI_Agents ↗ · 2026-06-14

讨论AI智能体使用工具的安全风险，重点关注提示注入这一实际威胁——不受信任的文本可能改变智能体行为，以及在授予权限前需要进行可重复测试。

0 人收藏 0 人点赞

#testing

@DeRonin_: 你理解Adaline刚刚发布了什么吗？？？智能体观察真实用户出了什么问题..对失败进行分组…

X AI KOLs Timeline ↗ · 2026-06-13 缓存

Adaline 2.0 是一个智能体自我改进层，它观察真实用户交互，按模式对失败进行聚类，每天自动编写数百个测试，并在部署前生成新的智能体候选版本供审批。

0 人收藏 0 人点赞

#testing

我构建了一种方法，让 Claude Code/Codex/Hermes 能够验证自身的工作，而不仅仅是说“完成”

Reddit r/AI_Agents ↗ · 2026-06-12

Iris 是一个 MCP 服务器，运行在你的真实应用中，通过检查条件并返回通过/失败判定及证据来验证 AI 代理（例如 Claude Code、Codex、Hermes）的工作，与基于快照的方法相比，减少了误报和令牌使用。

0 人收藏 0 人点赞

#testing

我的语音代理测试现在包含600秒断崖

Reddit r/AI_Agents ↗ · 2026-06-11

作者描述了一次语音代理通话在600秒时被无预警切断的情况，并提出了一种优雅处理最大通话时长的测试方法，包括切断前警告和状态保存。

0 人收藏 0 人点赞

#testing

@freeman1266: 如何从零开始构建一个工业级 Skill 工业级标准要求具备精准触发、权限收敛以及可评测迭代等核心特性，而非简单的提示词堆砌。构建评分标准、测试用例及质量门禁脚本的重要性，以确保工作流的严谨性。通过在 Codex 等 Agent 环境中…

X AI KOLs Timeline ↗ · 2026-06-11 缓存

本文介绍了从零构建工业级技能（Skill）的方法，强调精准触发、权限收敛、可评测迭代等核心特性，以及构建评分标准、测试用例和质量门禁脚本的重要性，展示了如何在Codex等Agent环境中实现专业、可维护的技能包。

0 人收藏 0 人点赞

#testing

@yoheinakajima: 不太新颖，但仍非常有趣的一个关键点是采用门控方法进行自我修改：智能体基本上会fork自身……

X AI KOLs Following ↗ · 2026-06-10 缓存

讨论了一种针对AI智能体自我修改的门控方法，智能体通过fork自身、提出补丁、并运行多项测试（静态/沙箱/diff）后，修改才会生效。

0 人收藏 0 人点赞

testing

提交意见反馈