微软新工具让开发者通过文本描述快速创建AI行为测试
摘要
微软发布了ASSERT,这是一个开源框架,可根据自然语言描述生成AI行为测试,使开发者能够创建特定于应用程序的评估并持续监控AI系统。
微软周二发布了Adaptive Spec-driven Scoring for Evaluation and Regression Testing(自适应规范驱动评分用于评估和回归测试),这是一个用于快速创建AI评估的开源框架。
查看缓存全文
缓存时间: 2026/06/02 21:36
# 微软新工具让开发者通过文本描述快速创建AI行为测试 | TechCrunch
来源:https://techcrunch.com/2026/06/02/new-microsoft-tool-lets-devs-spin-up-ai-behavior-tests-using-text-descriptions/
AI研究人员和实验室在评估AI模型方面取得了长足进步,涵盖了从安全性(https://www.theregister.com/software/2024/12/05/mlcommons-produces-benchmark-of-ai-model-safety/621835)和合规性到谄媚行为(https://techcrunch.com/2025/08/25/ai-sycophancy-isnt-just-a-quirk-experts-consider-it-a-dark-pattern-to-turn-users-into-profit/)以及对齐性(https://www.anthropic.com/research/bloom)等各个方面。但企业和开发者似乎面临着一个新的、具体需求:确保其AI系统在特定产品或服务中按预期运行。
为了简化这一测试流程,微软周二发布了ASSERT(https://github.com/responsibleai/ASSERT),全称为“自适应规范驱动的评估与回归测试评分”。
微软表示,这个开源框架通过利用AI将目标、策略或预期行为的高级自然语言描述转化为可深入检查的、带评分的测试,从而简化了应用特定AI行为的评估。
ASSERT接收AI模型预期行为及策略的简单语言描述,将其转化为一组结构化的可接受与不可接受行为,生成问题场景和测试用例,针对目标系统运行这些用例,并对结果进行评分。它还能记录AI系统所走的路径,包括中间操作和工具调用,以便开发者检查出错的环节。
开发者还可以提供系统上下文、工具和约束条件,以进一步定制评估范围。
例如,开发者可以指定一个文档研究AI助手不应向公司外部人员发送电子邮件,应将机密信息限制在C级高管范围内,并在考虑历史上下文的前提下提供简洁摘要。ASSERT将利用这些规则生成测试用例,持续检查系统是否遵守这些规则。
**图片来源:**微软
据微软称,该框架填补了更广泛、更通用的评估无法满足的空白——当AI模型需要根据应用或产品的上下文、策略和工具来塑造行为时。
“我们学到的一点是,评估对于做出正确决策绝对至关重要,”微软负责任AI首席产品官Sarah Bird(https://www.linkedin.com/in/slbird/)说,“因为如果你不了解AI系统的行为,就很难判断它是否达到了组织的标准……我们发现,要想真正拥有一个值得信赖的系统,你应该评估更多与应用相关的维度。”
Bird表示,ASSERT可用于评估构建中的系统、部署后的系统,甚至用于持续监控。
此次发布正值AI行业逐渐发生更广泛转变之际。随着模型能力不断增强,研究人员开始关注可重复测试和回归检查,斯坦福大学的HELM(https://crfm.stanford.edu/helm/)、MLCommons的AILuminate(https://mlcommons.org/ailuminate/)以及METR(https://metr.org/)等评估组织纷纷推出基准测试,以衡量模型在不同条件下的表现。
*当您通过我们文章中的链接购物时,我们可能会赚取少量佣金(https://techcrunch.com/techcrunch-affiliate-monetization-standards/)。这不会影响我们的编辑独立性。*
Ram是一位金融和科技领域的记者兼编辑。他曾在Reuters和Acuris Global报道北美和欧洲的并购、股权、监管新闻及债务市场,也曾撰写过旅游、观光、娱乐和书籍相关文章。
您可以通过[[email protected]](mailto:[email protected])联系或验证来自Ram的消息。
查看简介(https://techcrunch.com/author/ram-iyer/)
相似文章
Microsoft ASSERT:通过纯文本规格测试AI代理
微软在Build 2026大会上发布了ASSERT,这是一个开源框架,可将自然语言行为规范转化为AI代理的可执行评估。
微软为开发者提供更好的方式来控制AI智能体行为
微软推出了Agent Control Specification (ACS),这是一个开源标准,为开发者提供了一种统一的方式来定义和执行跨不同框架和环境的AI智能体策略。
停止让工程师对您的 AI Agent 进行“感觉测试”
作者介绍了一款开源的无代码工具,旨在让医疗和法律领域的非技术型主题专家能够评估 AI Agent,从而超越以开发者为中心的测试方法。
微软试图以新模型重返AI编码领域(1分钟阅读)
微软计划在下周的Build大会上发布新的AI编码模型,旨在恢复与Anthropic的Claude Code和OpenAI的Codex等竞争对手的竞争力。
@akshay_pachaar: 微软打造了一款适配AI的Fitbit。他们刚刚开源了AI Engineer Coach。一个VS Code扩展(同样适用于Cursor以及…
微软开源了AI Engineer Coach,这是一个VS Code扩展,可分析开发者对AI编程助手的实际使用情况,提供洞察和反模式检测,以优化AI工作流程。