微软新工具让开发者通过文本描述快速创建AI行为测试

TechCrunch AI 2026/06/02 19:02 工具

microsoft open-source ai-testing behavior-tests evaluation developer-tools framework

摘要

微软发布了ASSERT，这是一个开源框架，可根据自然语言描述生成AI行为测试，使开发者能够创建特定于应用程序的评估并持续监控AI系统。

微软周二发布了Adaptive Spec-driven Scoring for Evaluation and Regression Testing（自适应规范驱动评分用于评估和回归测试），这是一个用于快速创建AI评估的开源框架。

查看原文

查看缓存全文

缓存时间: 2026/06/02 21:36

# 微软新工具让开发者通过文本描述快速创建AI行为测试 | TechCrunch 来源：https://techcrunch.com/2026/06/02/new-microsoft-tool-lets-devs-spin-up-ai-behavior-tests-using-text-descriptions/ AI研究人员和实验室在评估AI模型方面取得了长足进步，涵盖了从安全性（https://www.theregister.com/software/2024/12/05/mlcommons-produces-benchmark-of-ai-model-safety/621835）和合规性到谄媚行为（https://techcrunch.com/2025/08/25/ai-sycophancy-isnt-just-a-quirk-experts-consider-it-a-dark-pattern-to-turn-users-into-profit/）以及对齐性（https://www.anthropic.com/research/bloom）等各个方面。但企业和开发者似乎面临着一个新的、具体需求：确保其AI系统在特定产品或服务中按预期运行。为了简化这一测试流程，微软周二发布了ASSERT（https://github.com/responsibleai/ASSERT），全称为“自适应规范驱动的评估与回归测试评分”。微软表示，这个开源框架通过利用AI将目标、策略或预期行为的高级自然语言描述转化为可深入检查的、带评分的测试，从而简化了应用特定AI行为的评估。 ASSERT接收AI模型预期行为及策略的简单语言描述，将其转化为一组结构化的可接受与不可接受行为，生成问题场景和测试用例，针对目标系统运行这些用例，并对结果进行评分。它还能记录AI系统所走的路径，包括中间操作和工具调用，以便开发者检查出错的环节。开发者还可以提供系统上下文、工具和约束条件，以进一步定制评估范围。例如，开发者可以指定一个文档研究AI助手不应向公司外部人员发送电子邮件，应将机密信息限制在C级高管范围内，并在考虑历史上下文的前提下提供简洁摘要。ASSERT将利用这些规则生成测试用例，持续检查系统是否遵守这些规则。 **图片来源：**微软据微软称，该框架填补了更广泛、更通用的评估无法满足的空白——当AI模型需要根据应用或产品的上下文、策略和工具来塑造行为时。 “我们学到的一点是，评估对于做出正确决策绝对至关重要，”微软负责任AI首席产品官Sarah Bird（https://www.linkedin.com/in/slbird/）说，“因为如果你不了解AI系统的行为，就很难判断它是否达到了组织的标准……我们发现，要想真正拥有一个值得信赖的系统，你应该评估更多与应用相关的维度。” Bird表示，ASSERT可用于评估构建中的系统、部署后的系统，甚至用于持续监控。此次发布正值AI行业逐渐发生更广泛转变之际。随着模型能力不断增强，研究人员开始关注可重复测试和回归检查，斯坦福大学的HELM（https://crfm.stanford.edu/helm/）、MLCommons的AILuminate（https://mlcommons.org/ailuminate/）以及METR（https://metr.org/）等评估组织纷纷推出基准测试，以衡量模型在不同条件下的表现。 *当您通过我们文章中的链接购物时，我们可能会赚取少量佣金（https://techcrunch.com/techcrunch-affiliate-monetization-standards/）。这不会影响我们的编辑独立性。* Ram是一位金融和科技领域的记者兼编辑。他曾在Reuters和Acuris Global报道北美和欧洲的并购、股权、监管新闻及债务市场，也曾撰写过旅游、观光、娱乐和书籍相关文章。您可以通过[[email protected]](mailto:[email protected])联系或验证来自Ram的消息。查看简介（https://techcrunch.com/author/ram-iyer/）

微软新工具让开发者通过文本描述快速创建AI行为测试

相似文章

Microsoft ASSERT：通过纯文本规格测试AI代理

微软为开发者提供更好的方式来控制AI智能体行为

停止让工程师对您的 AI Agent 进行“感觉测试”

微软试图以新模型重返AI编码领域（1分钟阅读）

@akshay_pachaar: 微软打造了一款适配AI的Fitbit。他们刚刚开源了AI Engineer Coach。一个VS Code扩展（同样适用于Cursor以及…

提交意见反馈