AI代理的按需人类判断
摘要
描述如何构建一个MCP服务器,为AI代理提供按需的人类判断,使它们能够在主观决策和评估中获得真实的人类反馈,而非依赖合成数据或缓慢的方法。
最近一直在思考这个问题。AI代理在机械性任务上已经变得非常出色——搜索、调用API、编写代码、执行多步骤计划。但它们仍然面临两个无论规模如何扩展都无法解决的问题:1. 它们会遇到决策点,其中'正确答案'是判断性问题,而非逻辑问题。这封邮件的语气是否过于激进?这三个着陆页标题中哪个真正有效?这个用户界面在普通人看来是否可疑?模型对这些事情有先验知识,但它们的先验是互联网的平均值,而不是你的实际用户。2. 除非花一周时间招募人员、构建调查、支付小组费用等,否则你无法对任何主观内容进行评估。因此,大多数团队干脆不做评估,仅凭感觉发布。我构建了一个MCP服务器来解决这两个问题。AI代理遇到分叉路口时,调用带有问题和受众的工具(例如'美国女性25-34岁'或'使用过Cursor的开发者'),并在几秒钟内获得真实的人类反馈。不是合成的。不是Mturk的墓地。真实的人几秒钟内回复。上周的一个例子——有人将它接入一个生成营销文案变体的Claude Code代理。代理没有自己选择'最佳'版本,而是将4个版本发送给目标细分市场的200人,获取偏好数据,然后才提交。同样的原语也适用于评估生成。想要一个500人的基准测试来评估你的代理输出是否值得信赖?一次工具调用即可。总之——好奇是否有人也在为AI代理做人在回路中的事情,以及如何做?我看到的大多数要么是缓慢的HITL,要么是纯LLM评判(便宜但循环)。
相似文章
MCP-Persona:通过环境模拟对LLM智能体在实际个人应用中的基准测试
MCP-Persona是一种基准测试,用于评估LLM智能体在与个人账户和本地数据库交互的个性化工具上的表现。实验表明,最先进的智能体在个性化工具使用方面面临显著挑战。
@petradonka: https://x.com/petradonka/status/2054897826149101588
文章认为,执行判断密集型任务的AI代理需要反馈循环来随时间改进,而非依赖静态提示,并以Warp开发的用于监控和回应社交提及的代理Buzz为例。
AI代理不仅仅需要更多的自主性,更需要关于何时停止的更好判断。
本文认为,AI代理需要更好的判断力来决定何时避免行动,特别是在数据不完整或结果不可逆的情况下。同时,受控的自主性对公司来说更值得信赖。
GetMCP:AI 代理的零信任
GetMCP 是一个可自托管的开源工具,通过提供每请求审计、每代理撤销、策略执行和 API 调用的人工介入审批,为 AI 代理带来零信任安全。它根据 OpenAPI 规范生成 MCP 服务器,并作为具有防篡改审计日志的流式代理运行。
Agent Judge:解决生产环境智能体的长上下文评估(10分钟阅读)
Agent Judge 是一种智能体评估工具,通过处理长轨迹、对照事实源系统验证状态化动作以及适应行为变化,克服了简单 LLM 评判器在长周期智能体评估中的局限性。