微软新工具让开发者通过文本描述快速创建AI行为测试

TechCrunch AI 工具

摘要

微软发布了ASSERT,这是一个开源框架,可根据自然语言描述生成AI行为测试,使开发者能够创建特定于应用程序的评估并持续监控AI系统。

微软周二发布了Adaptive Spec-driven Scoring for Evaluation and Regression Testing(自适应规范驱动评分用于评估和回归测试),这是一个用于快速创建AI评估的开源框架。
查看原文
查看缓存全文

缓存时间: 2026/06/02 21:36

# 微软新工具让开发者通过文本描述快速创建AI行为测试 | TechCrunch 来源:https://techcrunch.com/2026/06/02/new-microsoft-tool-lets-devs-spin-up-ai-behavior-tests-using-text-descriptions/ AI研究人员和实验室在评估AI模型方面取得了长足进步,涵盖了从安全性(https://www.theregister.com/software/2024/12/05/mlcommons-produces-benchmark-of-ai-model-safety/621835)和合规性到谄媚行为(https://techcrunch.com/2025/08/25/ai-sycophancy-isnt-just-a-quirk-experts-consider-it-a-dark-pattern-to-turn-users-into-profit/)以及对齐性(https://www.anthropic.com/research/bloom)等各个方面。但企业和开发者似乎面临着一个新的、具体需求:确保其AI系统在特定产品或服务中按预期运行。 为了简化这一测试流程,微软周二发布了ASSERT(https://github.com/responsibleai/ASSERT),全称为“自适应规范驱动的评估与回归测试评分”。 微软表示,这个开源框架通过利用AI将目标、策略或预期行为的高级自然语言描述转化为可深入检查的、带评分的测试,从而简化了应用特定AI行为的评估。 ASSERT接收AI模型预期行为及策略的简单语言描述,将其转化为一组结构化的可接受与不可接受行为,生成问题场景和测试用例,针对目标系统运行这些用例,并对结果进行评分。它还能记录AI系统所走的路径,包括中间操作和工具调用,以便开发者检查出错的环节。 开发者还可以提供系统上下文、工具和约束条件,以进一步定制评估范围。 例如,开发者可以指定一个文档研究AI助手不应向公司外部人员发送电子邮件,应将机密信息限制在C级高管范围内,并在考虑历史上下文的前提下提供简洁摘要。ASSERT将利用这些规则生成测试用例,持续检查系统是否遵守这些规则。 **图片来源:**微软 据微软称,该框架填补了更广泛、更通用的评估无法满足的空白——当AI模型需要根据应用或产品的上下文、策略和工具来塑造行为时。 “我们学到的一点是,评估对于做出正确决策绝对至关重要,”微软负责任AI首席产品官Sarah Bird(https://www.linkedin.com/in/slbird/)说,“因为如果你不了解AI系统的行为,就很难判断它是否达到了组织的标准……我们发现,要想真正拥有一个值得信赖的系统,你应该评估更多与应用相关的维度。” Bird表示,ASSERT可用于评估构建中的系统、部署后的系统,甚至用于持续监控。 此次发布正值AI行业逐渐发生更广泛转变之际。随着模型能力不断增强,研究人员开始关注可重复测试和回归检查,斯坦福大学的HELM(https://crfm.stanford.edu/helm/)、MLCommons的AILuminate(https://mlcommons.org/ailuminate/)以及METR(https://metr.org/)等评估组织纷纷推出基准测试,以衡量模型在不同条件下的表现。 *当您通过我们文章中的链接购物时,我们可能会赚取少量佣金(https://techcrunch.com/techcrunch-affiliate-monetization-standards/)。这不会影响我们的编辑独立性。* Ram是一位金融和科技领域的记者兼编辑。他曾在Reuters和Acuris Global报道北美和欧洲的并购、股权、监管新闻及债务市场,也曾撰写过旅游、观光、娱乐和书籍相关文章。 您可以通过[[email protected]](mailto:[email protected])联系或验证来自Ram的消息。 查看简介(https://techcrunch.com/author/ram-iyer/)

相似文章