testing

#testing

@CadX_Studio：打字、构建、剖切。这就是2026年AI CAD的样子。（初步测试）周一发布cadx模型…

X AI KOLs Following ↗ · 2026-05-23 缓存

CadX Studio预告了一款2026年的AI CAD模型，展示了从打字到构建再到剖切的工作流程，并计划于周一发布该模型。

0 人收藏 0 人点赞

#testing

我测试了8个面向牙科诊所（美国）的AI语音助手——真实通话中真正有效的是这些

Reddit r/AI_Agents ↗ · 2026-05-23

比较了8个用于牙科诊所工作流程的AI语音助手，重点展示了它们在延迟、中断处理和集成方面的表现。

0 人收藏 0 人点赞

#testing

@mattpocockuk: 我正在考虑的另一个文档层（除了CONTEXT.md和ADR's之外）是所有商定的测试接缝列表…

X AI KOLs Following ↗ · 2026-05-22 缓存

Matt Pocock 提出在应用中记录商定的测试接缝，认为AI代理不可信，无法做出好的测试决策，常常导致脆弱的测试在实现变更时失败。

0 人收藏 0 人点赞

#testing

创建了一个LLM测验程序，用于检查AI性能是否随时间变化

Reddit r/AI_Agents ↗ · 2026-05-22

一位开发者创建了LLM Canary，这是一个开源测验程序，向多个LLM发送随机任务以跟踪其性能随时间的变化。经过一周每小时对七个模型的测试，结果显示所有模型在一天中都有波动，没有一致的模式，也未发现明显的性能下降证据。

0 人收藏 0 人点赞

#testing

我构建了一个零代码可视化客户端，可即时测试远程 MCP 服务器（已用 Cloudflare 的免费 MCP 测试通过）

Reddit r/artificial ↗ · 2026-05-21

一位开发者在 AgentSwarms 中构建了一个零代码可视化 MCP 客户端，允许直接在浏览器中测试远程 MCP 服务器，并通过 Cloudflare 的免费 MCP 服务器进行了演示，用于文档查询。

0 人收藏 0 人点赞

#testing

我用Go构建了一个AI代理运行时，在交付前编译并测试生成的代码，35个文件，156个测试，零依赖

Reddit r/AI_Agents ↗ · 2026-05-20

ARK是一个开源的Go运行时，它管理AI代理的决策，在交付前编译和测试生成的代码，具有6阶段验证管道和成本高效的模型路由。

0 人收藏 0 人点赞

#testing

Show HN: Dari-docs – 使用并行编码代理优化你的文档

Hacker News Top ↗ · 2026-05-20 缓存

dari-docs 是一个 CLI 工具，通过模拟 AI 代理执行任务来测试文档质量，识别代理卡住的地方，并可选择生成改进文档清晰度的编辑建议。

0 人收藏 0 人点赞

#testing

使用AI代理测试分布式系统

Hacker News Top ↗ · 2026-05-20 缓存

AI编码代理的两项技能，用于设计和运行面向分布式及有状态系统的声明驱动测试，生成结构化的测试计划和发现报告，包含9种状态判定和归责分类。

0 人收藏 0 人点赞

#testing

@SpaceX：星舰和超重型V3已移至星基地发射台，进行最终测试和发射准备

X AI KOLs Timeline ↗ · 2026-05-19 缓存

SpaceX已将星舰和超重型V3移至星基地的发射台，进行最终测试和发射准备。

0 人收藏 0 人点赞

#testing

@zostaff: Two Sigma 只从MIT、斯坦福和CMU招聘博士。他们的工程师编写的工具后来支撑了Twitter、Apple……

X AI KOLs Timeline ↗ · 2026-05-19 缓存

Two Sigma 开源了四个工具——Flint、BeakerX、Marbles和Cook——这些工具被Twitter、Apple和Indeed等科技巨头使用，涵盖时间序列分析、多语言笔记本、可读的测试失败信息以及批处理作业调度。

0 人收藏 0 人点赞

#testing

我们如何在加固Turso时使用Quint在SQLite中发现超过10个漏洞

Lobsters Hottest ↗ · 2026-05-19 缓存

Turso使用Quint形式化验证工具对SQLite的C API进行建模，并在SQLite自身中发现了超过10个漏洞，从而增强了其SQLite重写版的可靠性。

0 人收藏 0 人点赞

#testing

3个月内14个试点项目，今天我们在Product Hunt上线。

Reddit r/AI_Agents ↗ · 2026-05-19

Drizz是一款用于移动/Web应用测试的AI代理，它使用自然语言和视觉理解。通过冷启动和推荐，我们获得了14个试点客户，现在正式在Product Hunt上线。

0 人收藏 0 人点赞

#testing

cargo-crap：在AI生成的Rust代码中发现未测试的复杂度

Lobsters Hottest ↗ · 2026-05-18 缓存

cargo-crap 是一个 Rust 工具，它使用 CRAP 指标来识别既复杂又测试不足的函数，帮助开发者管理 AI 生成代码中的风险。

0 人收藏 0 人点赞

#testing

基于Markdown的测试套件

Hacker News Top ↗ · 2026-05-18 缓存

作者解释了为EndBASIC的编译器和虚拟机切换到基于Markdown的测试套件的原因，目的是让这些测试作为LLM学习该语言独特特性的权威文档。

0 人收藏 0 人点赞

#testing

@BenjaminDEKR: 不过他没说错

X AI KOLs Timeline ↗ · 2026-05-18 缓存

特斯拉正在德克萨斯州测试其Cybercab机器人出租车，该车采用全线控转向技术，表明其自动驾驶网约车服务的进展比预期更快。

0 人收藏 0 人点赞

#testing

@jarredsumner：在 bun 的 Rust 重写过程中我最喜欢的测试失败：TOML 和 YAML 解析器的栈溢出测试失败了，因为它现在可以比测试预期更深…

X AI KOLs Timeline ↗ · 2026-05-18 缓存

Jarred Sumner 分享了 Bun 的 Rust 重写过程中一个最喜欢的测试失败：TOML 和 YAML 解析器的栈溢出测试失败了，因为 Rust 实现能够处理比预期更深层次的嵌套。

0 人收藏 0 人点赞

#testing

AnyFrame

Product Hunt ↗ · 2026-05-18

AnyFrame 为 AI 智能体提供沙箱环境，支持安全测试与开发。

0 人收藏 0 人点赞

#testing

Savepoint 项目

Lobsters Hottest ↗ · 2026-05-17 缓存

Savepoint 是一个命令监视工具，当指定命令（如测试）成功运行时，它会自动创建 Git 提交，帮助开发者在修复错误后保存进度。

0 人收藏 0 人点赞

#testing

@santtiagom_: OpenAI关于Harness Engineering和Codex的一篇非常好的文章。他们解释了如何使用代理构建一个内部产品…

X AI KOLs Timeline ↗ · 2026-05-16 缓存

这条推文总结了一篇关于Harness Engineering和Codex的OpenAI文章，讨论了使用AI代理构建一个100万行内部产品时遇到的挑战和见解。

0 人收藏 0 人点赞

#testing

我的CLI现在可以控制整个桌面，有什么好的测试可以验证它是否真正有效？

Reddit r/AI_Agents ↗ · 2026-05-15

用户描述了一个通过混合使用鼠标、键盘和截图方式控制整个桌面的CLI工具，该工具成功完成了发送电子邮件截图和远程桌面控制等任务。用户希望寻找具有挑战性的测试来验证其稳健性。

0 人收藏 0 人点赞

testing

提交意见反馈