testing

#testing

植入对植入测试中的精确低度阈值

arXiv cs.LG ↗ · 2026-06-05 缓存

本文首次建立了植入对植入设置下低度多项式测试的精确阈值，与已知的用于计数植入子矩阵和植入稠密子图模型中社区的恢复阈值相匹配，并识别了弱测试中的平滑过渡。

0 人收藏 0 人点赞

#testing

Ciao - 断言及其使用

Lobsters Hottest ↗ · 2026-06-05 缓存

本文档描述了Ciao Prolog系统中的断言语言，它允许使用类型和实例化模式声明来注解代码，用于调试、测试、优化和自动文档生成。

0 人收藏 0 人点赞

#testing

宣布在 Haskell 中引入变异测试

Lobsters Hottest ↗ · 2026-06-04 缓存

变异测试现已在 sydtest Haskell 测试框架中正式发布，开发者可通过自动生成代码变异并验证测试套件是否能捕获这些变异，从而客观评估测试质量。作者的动机源于 AI 生成代码（通过 Claude）的兴起，以及对测试覆盖率进行客观、自动化度量的需求。

0 人收藏 0 人点赞

#testing

我不认为你能攻破Bendex Arc。证明我错了。

Reddit r/AI_Agents ↗ · 2026-06-03

Bendex Arc是一款通过追踪完整会话以抵御提示注入攻击的工具。经独立验证，面对能击败所有其他测试工具的各类攻击时，其防御有效率达到100%。

0 人收藏 0 人点赞

#testing

Microsoft ASSERT：通过纯文本规格测试AI代理

Reddit r/artificial ↗ · 2026-06-03 缓存

微软在Build 2026大会上发布了ASSERT，这是一个开源框架，可将自然语言行为规范转化为AI代理的可执行评估。

0 人收藏 0 人点赞

#testing

如何测试一个长上下文推理系统？

Reddit r/ArtificialInteligence ↗ · 2026-06-03

一个关于测试能够跨100m+上下文进行近乎完美推理的系统的假设性问题，引发了关于如何证明其能力的讨论。

0 人收藏 0 人点赞

#testing

自调用可执行文件

Lobsters Hottest ↗ · 2026-06-02 缓存

本文介绍了自调用可执行文件的概念，即程序启动自身的另一个实例，并演示了其在 Go 测试（在子进程中运行 main 函数）和 TUI 工具（例如 jjui 使用 SSH_ASKPASS 通过子进程提示输入密码）中的应用。

0 人收藏 0 人点赞

#testing

我在AI项目中经常看到但没人公开讨论的事情

Reddit r/AI_Agents ↗ · 2026-06-02

本文指出，许多AI代理项目在生产环境中失败，并非因为模型质量，而是因为团队在发布前没有明确定义何为失败，忽略了关键边缘案例，导致自信地输出错误结果。

0 人收藏 0 人点赞

#testing

@FinanceYF5: 太酷了！ Peter Steinberger 把 Codex 调教成了全自动 QA 机器人。现在每次代码提交后，它会自己生成测试用例、模拟用户操作跑测试，发现 bug 还能直接写修复代码提 PR。开发效率直接拉满了！

X AI KOLs Following ↗ · 2026-06-01 缓存

Peter Steinberger利用Codex构建了全自动QA机器人，每次代码提交后自动生成测试、运行测试，并能在发现bug时自动修复并提交PR，大幅提升开发效率。

0 人收藏 0 人点赞

#testing

在真实浏览器任务中测试AI代理后，我认为炒作超前于基础设施

Reddit r/AI_Agents ↗ · 2026-06-01

作者在真实浏览器任务中测试了AI代理，发现由于基础设施限制，它们不可靠，主张为代理提供专用的浏览器运行时，而不是依赖当前为人类设计的浏览器。

0 人收藏 0 人点赞

#testing

构建了一个小型开源工具，防止AI代理在变更后出现回归

Reddit r/artificial ↗ · 2026-05-31 缓存

replayd 是一个开源Python工具，它捕获失败的AI代理运行，并将其作为回归测试重放，以防止变更后回归再次出现。

0 人收藏 0 人点赞

#testing

生产构建基准测试

Reddit r/AI_Agents ↗ · 2026-05-29

讨论如何对生产构建进行基准测试和分级，重点关注关键性能指标，如上下文漂移、幻觉和治理。

0 人收藏 0 人点赞

#testing

蓝色起源火箭在热试车中爆炸，遭遇重大挫折

Wired ↗ · 2026-05-29 缓存

蓝色起源的新格伦火箭在卡纳维拉尔角进行的热试车中发生爆炸，标志着一次重大挫折。所有人员安全，调查正在进行中。

0 人收藏 0 人点赞

#testing

旧金山初创公司被指控在Airbnbs中测试机器人并造成破坏，诉讼索赔

Hacker News Top ↗ · 2026-05-28 缓存

由特斯拉和Cruise前员工创立的估值20亿美元的初创公司The Bot Company被指控在Airbnbs中秘密测试家用机器人，造成大面积损坏；一位房东提起诉讼，要求赔偿12,383.50美元。

0 人收藏 0 人点赞

#testing

键盘延迟探测

Lobsters Hottest ↗ · 2026-05-27 缓存

一个通过反应时间和敲击时长测试来测量键盘延迟的网页，允许用户提交结果进行比较。

0 人收藏 0 人点赞

#testing

LGMT：基于逻辑的变形测试用于评估LLM推理可靠性

arXiv cs.AI ↗ · 2026-05-26 缓存

本文介绍了LGMT，这是一个利用一阶逻辑生成语义不变测试用例以评估LLM推理可靠性的框架。在六个LLM上的实验表明，LGMT暴露了静态基准遗漏的隐藏缺陷，提示评估应侧重于逻辑不变性下的鲁棒性。

0 人收藏 0 人点赞

#testing

CAFD: 使用VLMs的概念感知DNN故障检测

arXiv cs.LG ↗ · 2026-05-26 缓存

本文介绍了CAFD，一种基于学习的DNN故障检测方法，它整合了基于模型、基于距离以及一种新颖的基于概念的特征——概念失败率（CFR），该特征源自视觉语言模型。CAFD在多个数据集和预算下的故障检测率方面持续优于最先进的基线方法。

0 人收藏 0 人点赞

#testing

在 Anubis OSS 的 UI 中新增了直接下载模型的功能——如果有人愿意帮忙测试，那就太好了

Reddit r/LocalLLaMA ↗ · 2026-05-26

Anubis OSS 是一款用于本地 LLM 基准测试的 Apple Silicon Mac 应用，现在支持通过 UI 中的“浏览模型”按钮直接从 ollama.com 库下载模型。开发者正在寻找测试人员，以确认安装和功能正常运行。

0 人收藏 0 人点赞

#testing

Anthropic表示Mythos尚未公开发布，但‘Mythos 1’却不断出现。

Reddit r/ArtificialInteligence ↗ · 2026-05-25 缓存

尽管Anthropic声称其强大的Mythos模型仍将受限，但用户多次在Claude Code界面和源代码中发现‘Mythos 1’，这表明可能存在未公开的分阶段发布或静默生产测试。

0 人收藏 0 人点赞

#testing

datasette-fixtures 0.1a0

Simon Willison's Blog ↗ · 2026-05-24 缓存

datasette-fixtures 0.1a0 是一个新插件，利用 Datasette 1.0a30 新增的 fixture 数据库 API，方便插件测试。可通过 uvx 快速试用，内置示例数据。

0 人收藏 0 人点赞

testing

提交意见反馈