需要直率反馈:我构建了一个用于记录AI代理运行的工具

Reddit r/AI_Agents 工具

摘要

一位开发者构建了agentproof-recorder来记录AI代理运行并检测规则违规,寻求反馈这是否是一个常见的痛点。

我最近更认真地使用AI编码代理,有一件事开始困扰我。我需要某种方式来控制敏感材料的访问。咖啡因上头后,我去了codex并构建了agentproof-recorder。它可以记录代理的运行过程,并检查代理在执行期间是否违反了规则。我还不确定这对其他人是否真的是一个痛点,还是只是我个人在使用代理时感到恼火的问题。所以我想要严厉的反馈:你在使用代理时是否也面临这个问题,你又是如何解决的?像这样的工具会有用吗?
查看原文

相似文章

你究竟如何调试AI代理?

Reddit r/AI_Agents

开发者分享了在生产环境中调试AI代理的困境,指出了幻觉问题、提示词更改导致的回归以及高昂的API成本,并向社区征求策略。

因为失控的 agent 浪费几百美元 API 额度,基本上已经成为一种入门仪式了。这是我的经历。

Reddit r/artificial

我现在开始觉得这是一种共同经历了。我认识的所有构建 agentic AI 的人,git 历史深处都藏着同样的悄悄话:那个让 agent 无人看管跑了一整个周末的经历、周一收到的账单、试图弄清楚它到底做了什么的取证工作。我的经历是两天内花了 400 多美元。我的 agent 对着同一个研究任务换着法子自言自语了 48 小时,结果什么都没产出。感觉就像被一个非常有礼貌的 Phi