testing

标签

Cards List
#testing

@dabit3: 这是@DevinAI的原生功能,且(可选地)随每次PR附带!

X AI KOLs Following · 2小时前 缓存

Devin AI现原生支持在创建PR后自动进行端到端测试和视频录制,并将录制的屏幕截图发送给审查者以便快速验证。

0 人收藏 0 人点赞
#testing

@jasonzhou1993: https://x.com/jasonzhou1993/status/2069413003897012435

X AI KOLs Timeline · 16小时前 缓存

Crabbox 是一种新工具,可为 AI 编码代理提供隔离的云环境来测试和验证 PR,使其能够并行工作而不会发生冲突,并减少审查瓶颈。

0 人收藏 0 人点赞
#testing

Bain通过vibecoding AI复制品测试软件收购目标

Hacker News Top · 昨天

Bain & Company正在使用AI 'vibecoding' 复制品来测试潜在的软件收购目标,模拟它们在新所有权下的运营方式。

0 人收藏 0 人点赞
#testing

Show HN:Selector Forge —— 浏览器扩展,利用AI生成弹性的选择器

Hacker News Top · 昨天 缓存

Selector Forge 是一款浏览器扩展,利用AI生成并验证可靠的CSS/XPath选择器,用于网页自动化,帮助开发者构建稳健的选择器,适用于测试、数据抓取和页面自动化。

0 人收藏 0 人点赞
#testing

优化 #[sqlx::test] 的重建时间

Lobsters Hottest · 2天前 缓存

一位 Rust 开发者对 SQLx 测试的增量重建时间进行了性能分析和优化,识别了调试信息生成和过程宏开销等瓶颈,并提出了加速测试编译的改进方案。

0 人收藏 0 人点赞
#testing

@gdb: 使用codex测试你应用中的每一个功能:

X AI KOLs Following · 2天前 缓存

使用Codex通过生成用户故事并在迭代循环中在电子表格中跟踪功能状态,来自动化应用测试。

0 人收藏 0 人点赞
#testing

@FinanceYF5: 2/ 速度要分层 Ramp 每天发大功能,没让领导追每个细节,而是把发布拆成两层。 随时进 early access,10% 客户、5000+ 家企业做测试组;GA 前必须交证据:3 分钟 demo、KPI、客户反馈、支持准备和上线计划。

X AI KOLs Following · 3天前 缓存

Ramp 采用分层发布策略,每日推送大功能,将发布拆分为早期访问(EA)和正式可用(GA)两层,EA 阶段覆盖 10% 客户和 5000+ 企业,GA 前需提交 demo、KPI、客户反馈、支持准备和上线计划等证据,以加速迭代。

0 人收藏 0 人点赞
#testing

与Claude Code实现浏览器开发闭环的出色开发工具

Reddit r/AI_Agents · 6天前

本文介绍了claude-browser-stack和agent-pods,这是一套自动化浏览器开发循环的工具,通过让AI代理调试API、扫描漏洞、记录用户流程并向Claude提供视觉上下文,从而在编码和验证之间形成闭环。

0 人收藏 0 人点赞
#testing

在生产环境中评估AI代理之前我希望知道的事情

Reddit r/AI_Agents · 2026-06-16

关于在生产环境中评估AI代理的个人经验教训,包括将症状映射到各层、使用轨迹评估、校准LLM评判者、将失败转化为测试用例以及进行对抗性测试。

0 人收藏 0 人点赞
#testing

@dakshgup: 介绍 T-Rex,启用 T-Rex 后,Greptile 不仅能审查你的 PR,还能在沙箱中运行你的分支以发现错误……

X AI KOLs Following · 2026-06-15 缓存

Greptile 推出 T-Rex,该功能可在沙箱中运行你的分支,通过模拟 API 调用、点击 UI 界面以及运行单元测试来发现错误,相比基础版 Greptile 能多捕获约 20% 的错误。

0 人收藏 0 人点赞
#testing

@yuanhao: https://x.com/yuanhao/status/2066341005847142674

X AI KOLs Timeline · 2026-06-15 缓存

Yoyo是一个在GitHub Action上每8小时自我演进的AI agent,其成功关键在于一个无状态agent加持久化状态(git仓库)的harness设计。文章深入分析了记忆、上下文、反馈、验证等问题的朴素解法,强调持久化状态比模型本身更关键。

0 人收藏 0 人点赞
#testing

对于使用工具的智能体,安全边界应划在哪里?

Reddit r/AI_Agents · 2026-06-14

讨论AI智能体使用工具的安全风险,重点关注提示注入这一实际威胁——不受信任的文本可能改变智能体行为,以及在授予权限前需要进行可重复测试。

0 人收藏 0 人点赞
#testing

@DeRonin_: 你理解Adaline刚刚发布了什么吗???智能体观察真实用户出了什么问题..对失败进行分组…

X AI KOLs Timeline · 2026-06-13 缓存

Adaline 2.0 是一个智能体自我改进层,它观察真实用户交互,按模式对失败进行聚类,每天自动编写数百个测试,并在部署前生成新的智能体候选版本供审批。

0 人收藏 0 人点赞
#testing

我构建了一种方法,让 Claude Code/Codex/Hermes 能够验证自身的工作,而不仅仅是说“完成”

Reddit r/AI_Agents · 2026-06-12

Iris 是一个 MCP 服务器,运行在你的真实应用中,通过检查条件并返回通过/失败判定及证据来验证 AI 代理(例如 Claude Code、Codex、Hermes)的工作,与基于快照的方法相比,减少了误报和令牌使用。

0 人收藏 0 人点赞
#testing

我的语音代理测试现在包含600秒断崖

Reddit r/AI_Agents · 2026-06-11

作者描述了一次语音代理通话在600秒时被无预警切断的情况,并提出了一种优雅处理最大通话时长的测试方法,包括切断前警告和状态保存。

0 人收藏 0 人点赞
#testing

@freeman1266: 如何从零开始构建一个工业级 Skill 工业级标准要求具备精准触发、权限收敛以及可评测迭代等核心特性,而非简单的提示词堆砌。 构建评分标准、测试用例及质量门禁脚本的重要性,以确保工作流的严谨性。 通过在 Codex 等 Agent 环境中…

X AI KOLs Timeline · 2026-06-11 缓存

本文介绍了从零构建工业级技能(Skill)的方法,强调精准触发、权限收敛、可评测迭代等核心特性,以及构建评分标准、测试用例和质量门禁脚本的重要性,展示了如何在Codex等Agent环境中实现专业、可维护的技能包。

0 人收藏 0 人点赞
#testing

@yoheinakajima: 不太新颖,但仍非常有趣的一个关键点是采用门控方法进行自我修改:智能体基本上会fork自身……

X AI KOLs Following · 2026-06-10 缓存

讨论了一种针对AI智能体自我修改的门控方法,智能体通过fork自身、提出补丁、并运行多项测试(静态/沙箱/diff)后,修改才会生效。

0 人收藏 0 人点赞
#testing

我正在构建一个工具,旨在让你无需再手动与自己的AI代理聊天来测试它,你会使用它吗?

Reddit r/AI_Agents · 2026-06-10

作者正在构建一个工具,通过模拟真实用户对话并提供通过/失败报告来自动测试AI代理,从而让开发者免于手动测试。

0 人收藏 0 人点赞
#testing

你的AI代理绿色测试套件实际证明了什么

Reddit r/AI_Agents · 2026-06-10

本文认为,由于输入空间无限且行为非确定性,AI代理使用固定输入和预期输出的标准测试套件并不充分,主张应采用基于属性的测试方法。

0 人收藏 0 人点赞
#testing

@rohanpaul_ai: 机器人技术进展缓慢,因为每次更改都需要物理设置、人员、空间以及反复的实地运行。物理AI需要...

X AI KOLs Following · 2026-06-09 缓存

Antioch 推出了 Antioch Agent,这是一个基于浏览器的机器人模拟器,让开发者可以在没有物理硬件的情况下,在封闭的智能体循环中测试机器人软件,从而加速开发周期。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈