标签
本文首次建立了植入对植入设置下低度多项式测试的精确阈值,与已知的用于计数植入子矩阵和植入稠密子图模型中社区的恢复阈值相匹配,并识别了弱测试中的平滑过渡。
本文档描述了Ciao Prolog系统中的断言语言,它允许使用类型和实例化模式声明来注解代码,用于调试、测试、优化和自动文档生成。
变异测试现已在 sydtest Haskell 测试框架中正式发布,开发者可通过自动生成代码变异并验证测试套件是否能捕获这些变异,从而客观评估测试质量。作者的动机源于 AI 生成代码(通过 Claude)的兴起,以及对测试覆盖率进行客观、自动化度量的需求。
Bendex Arc是一款通过追踪完整会话以抵御提示注入攻击的工具。经独立验证,面对能击败所有其他测试工具的各类攻击时,其防御有效率达到100%。
微软在Build 2026大会上发布了ASSERT,这是一个开源框架,可将自然语言行为规范转化为AI代理的可执行评估。
本文介绍了自调用可执行文件的概念,即程序启动自身的另一个实例,并演示了其在 Go 测试(在子进程中运行 main 函数)和 TUI 工具(例如 jjui 使用 SSH_ASKPASS 通过子进程提示输入密码)中的应用。
本文指出,许多AI代理项目在生产环境中失败,并非因为模型质量,而是因为团队在发布前没有明确定义何为失败,忽略了关键边缘案例,导致自信地输出错误结果。
Peter Steinberger利用Codex构建了全自动QA机器人,每次代码提交后自动生成测试、运行测试,并能在发现bug时自动修复并提交PR,大幅提升开发效率。
作者在真实浏览器任务中测试了AI代理,发现由于基础设施限制,它们不可靠,主张为代理提供专用的浏览器运行时,而不是依赖当前为人类设计的浏览器。
replayd 是一个开源Python工具,它捕获失败的AI代理运行,并将其作为回归测试重放,以防止变更后回归再次出现。
由特斯拉和Cruise前员工创立的估值20亿美元的初创公司The Bot Company被指控在Airbnbs中秘密测试家用机器人,造成大面积损坏;一位房东提起诉讼,要求赔偿12,383.50美元。
本文介绍了LGMT,这是一个利用一阶逻辑生成语义不变测试用例以评估LLM推理可靠性的框架。在六个LLM上的实验表明,LGMT暴露了静态基准遗漏的隐藏缺陷,提示评估应侧重于逻辑不变性下的鲁棒性。
本文介绍了CAFD,一种基于学习的DNN故障检测方法,它整合了基于模型、基于距离以及一种新颖的基于概念的特征——概念失败率(CFR),该特征源自视觉语言模型。CAFD在多个数据集和预算下的故障检测率方面持续优于最先进的基线方法。
Anubis OSS 是一款用于本地 LLM 基准测试的 Apple Silicon Mac 应用,现在支持通过 UI 中的“浏览模型”按钮直接从 ollama.com 库下载模型。开发者正在寻找测试人员,以确认安装和功能正常运行。
尽管Anthropic声称其强大的Mythos模型仍将受限,但用户多次在Claude Code界面和源代码中发现‘Mythos 1’,这表明可能存在未公开的分阶段发布或静默生产测试。
datasette-fixtures 0.1a0 是一个新插件,利用 Datasette 1.0a30 新增的 fixture 数据库 API,方便插件测试。可通过 uvx 快速试用,内置示例数据。