testing

标签

Cards List
#testing

@CadX_Studio:打字、构建、剖切。这就是2026年AI CAD的样子。(初步测试)周一发布cadx模型…

X AI KOLs Following · 2026-05-23 缓存

CadX Studio预告了一款2026年的AI CAD模型,展示了从打字到构建再到剖切的工作流程,并计划于周一发布该模型。

0 人收藏 0 人点赞
#testing

我测试了8个面向牙科诊所(美国)的AI语音助手——真实通话中真正有效的是这些

Reddit r/AI_Agents · 2026-05-23

比较了8个用于牙科诊所工作流程的AI语音助手,重点展示了它们在延迟、中断处理和集成方面的表现。

0 人收藏 0 人点赞
#testing

@mattpocockuk: 我正在考虑的另一个文档层(除了CONTEXT.md和ADR's之外)是所有商定的测试接缝列表…

X AI KOLs Following · 2026-05-22 缓存

Matt Pocock 提出在应用中记录商定的测试接缝,认为AI代理不可信,无法做出好的测试决策,常常导致脆弱的测试在实现变更时失败。

0 人收藏 0 人点赞
#testing

创建了一个LLM测验程序,用于检查AI性能是否随时间变化

Reddit r/AI_Agents · 2026-05-22

一位开发者创建了LLM Canary,这是一个开源测验程序,向多个LLM发送随机任务以跟踪其性能随时间的变化。经过一周每小时对七个模型的测试,结果显示所有模型在一天中都有波动,没有一致的模式,也未发现明显的性能下降证据。

0 人收藏 0 人点赞
#testing

我构建了一个零代码可视化客户端,可即时测试远程 MCP 服务器(已用 Cloudflare 的免费 MCP 测试通过)

Reddit r/artificial · 2026-05-21

一位开发者在 AgentSwarms 中构建了一个零代码可视化 MCP 客户端,允许直接在浏览器中测试远程 MCP 服务器,并通过 Cloudflare 的免费 MCP 服务器进行了演示,用于文档查询。

0 人收藏 0 人点赞
#testing

我用Go构建了一个AI代理运行时,在交付前编译并测试生成的代码,35个文件,156个测试,零依赖

Reddit r/AI_Agents · 2026-05-20

ARK是一个开源的Go运行时,它管理AI代理的决策,在交付前编译和测试生成的代码,具有6阶段验证管道和成本高效的模型路由。

0 人收藏 0 人点赞
#testing

Show HN: Dari-docs – 使用并行编码代理优化你的文档

Hacker News Top · 2026-05-20 缓存

dari-docs 是一个 CLI 工具,通过模拟 AI 代理执行任务来测试文档质量,识别代理卡住的地方,并可选择生成改进文档清晰度的编辑建议。

0 人收藏 0 人点赞
#testing

使用AI代理测试分布式系统

Hacker News Top · 2026-05-20 缓存

AI编码代理的两项技能,用于设计和运行面向分布式及有状态系统的声明驱动测试,生成结构化的测试计划和发现报告,包含9种状态判定和归责分类。

0 人收藏 0 人点赞
#testing

@SpaceX:星舰和超重型V3已移至星基地发射台,进行最终测试和发射准备

X AI KOLs Timeline · 2026-05-19 缓存

SpaceX已将星舰和超重型V3移至星基地的发射台,进行最终测试和发射准备。

0 人收藏 0 人点赞
#testing

@zostaff: Two Sigma 只从MIT、斯坦福和CMU招聘博士。他们的工程师编写的工具后来支撑了Twitter、Apple……

X AI KOLs Timeline · 2026-05-19 缓存

Two Sigma 开源了四个工具——Flint、BeakerX、Marbles和Cook——这些工具被Twitter、Apple和Indeed等科技巨头使用,涵盖时间序列分析、多语言笔记本、可读的测试失败信息以及批处理作业调度。

0 人收藏 0 人点赞
#testing

我们如何在加固Turso时使用Quint在SQLite中发现超过10个漏洞

Lobsters Hottest · 2026-05-19 缓存

Turso使用Quint形式化验证工具对SQLite的C API进行建模,并在SQLite自身中发现了超过10个漏洞,从而增强了其SQLite重写版的可靠性。

0 人收藏 0 人点赞
#testing

3个月内14个试点项目,今天我们在Product Hunt上线。

Reddit r/AI_Agents · 2026-05-19

Drizz是一款用于移动/Web应用测试的AI代理,它使用自然语言和视觉理解。通过冷启动和推荐,我们获得了14个试点客户,现在正式在Product Hunt上线。

0 人收藏 0 人点赞
#testing

cargo-crap:在AI生成的Rust代码中发现未测试的复杂度

Lobsters Hottest · 2026-05-18 缓存

cargo-crap 是一个 Rust 工具,它使用 CRAP 指标来识别既复杂又测试不足的函数,帮助开发者管理 AI 生成代码中的风险。

0 人收藏 0 人点赞
#testing

基于Markdown的测试套件

Hacker News Top · 2026-05-18 缓存

作者解释了为EndBASIC的编译器和虚拟机切换到基于Markdown的测试套件的原因,目的是让这些测试作为LLM学习该语言独特特性的权威文档。

0 人收藏 0 人点赞
#testing

@BenjaminDEKR: 不过他没说错

X AI KOLs Timeline · 2026-05-18 缓存

特斯拉正在德克萨斯州测试其Cybercab机器人出租车,该车采用全线控转向技术,表明其自动驾驶网约车服务的进展比预期更快。

0 人收藏 0 人点赞
#testing

@jarredsumner:在 bun 的 Rust 重写过程中我最喜欢的测试失败:TOML 和 YAML 解析器的栈溢出测试失败了,因为它现在可以比测试预期更深…

X AI KOLs Timeline · 2026-05-18 缓存

Jarred Sumner 分享了 Bun 的 Rust 重写过程中一个最喜欢的测试失败:TOML 和 YAML 解析器的栈溢出测试失败了,因为 Rust 实现能够处理比预期更深层次的嵌套。

0 人收藏 0 人点赞
#testing

AnyFrame

Product Hunt · 2026-05-18

AnyFrame 为 AI 智能体提供沙箱环境,支持安全测试与开发。

0 人收藏 0 人点赞
#testing

Savepoint 项目

Lobsters Hottest · 2026-05-17 缓存

Savepoint 是一个命令监视工具,当指定命令(如测试)成功运行时,它会自动创建 Git 提交,帮助开发者在修复错误后保存进度。

0 人收藏 0 人点赞
#testing

@santtiagom_: OpenAI关于Harness Engineering和Codex的一篇非常好的文章。他们解释了如何使用代理构建一个内部产品…

X AI KOLs Timeline · 2026-05-16 缓存

这条推文总结了一篇关于Harness Engineering和Codex的OpenAI文章,讨论了使用AI代理构建一个100万行内部产品时遇到的挑战和见解。

0 人收藏 0 人点赞
#testing

我的CLI现在可以控制整个桌面,有什么好的测试可以验证它是否真正有效?

Reddit r/AI_Agents · 2026-05-15

用户描述了一个通过混合使用鼠标、键盘和截图方式控制整个桌面的CLI工具,该工具成功完成了发送电子邮件截图和远程桌面控制等任务。用户希望寻找具有挑战性的测试来验证其稳健性。

0 人收藏 0 人点赞
← Previous
Next →
← 返回首页

提交意见反馈