停止让工程师对您的 AI Agent 进行“感觉测试”

Reddit r/AI_Agents 工具

摘要

作者介绍了一款开源的无代码工具,旨在让医疗和法律领域的非技术型主题专家能够评估 AI Agent,从而超越以开发者为中心的测试方法。

如果您的 Agent 面向医疗或法律领域,开发者不应成为最终的评判者。大多数评估工具都是为工程师(Python/JSON)设计的。我是一名独立开发者,正在构建一款**开源、无代码的工具**,以便真正的医生和律师能够亲自运行 AI 评估。**您在测试中是如何让非技术领域的主题专家(SME)参与的?** 还是说您仅仅指望“感觉测试”就足够了?
查看原文

相似文章

氛围编码与智能工程正变得比我预想中更接近

Simon Willison's Blog

# 氛围编码与智能工程正变得比我预想中更接近 来源:[https://simonwillison.net/2026/May/6/vibe-coding-and-agentic-engineering/](https://simonwillison.net/2026/May/6/vibe-coding-and-agentic-engineering/) 2026年5月6日 我最近与 Joseph Ruscio 在 Heavybit 的 High Leverage 播客中讨论了 AI 编程工具: [Ep. #9, 与 Simon Willison 探讨 AI 编程范式转变](https://www.heavybit.com/library/podcasts/high-leverage/ep-9-the-ai-coding-paradigm-shift-with-simon