需要直率反馈:我构建了一个用于记录AI代理运行的工具
摘要
一位开发者构建了agentproof-recorder来记录AI代理运行并检测规则违规,寻求反馈这是否是一个常见的痛点。
我最近更认真地使用AI编码代理,有一件事开始困扰我。我需要某种方式来控制敏感材料的访问。咖啡因上头后,我去了codex并构建了agentproof-recorder。它可以记录代理的运行过程,并检查代理在执行期间是否违反了规则。我还不确定这对其他人是否真的是一个痛点,还是只是我个人在使用代理时感到恼火的问题。所以我想要严厉的反馈:你在使用代理时是否也面临这个问题,你又是如何解决的?像这样的工具会有用吗?
相似文章
大家是如何处理 AI 智能体的长期记忆 + 回放/调试问题的?
一位开发者探讨了当前 AI 智能体记忆系统的局限性,并提出了一款具有片段存储和回放调试功能的新记忆层工具,希望获得社区的验证。
你究竟如何调试AI代理?
开发者分享了在生产环境中调试AI代理的困境,指出了幻觉问题、提示词更改导致的回归以及高昂的API成本,并向社区征求策略。
如何捕捉AI智能体遗漏应执行操作的情况?
一位开发者探讨了检测AI智能体静默跳过操作时的挑战,强调了区分合理遗漏(如策略阻止)与失败之间的困难,并呼吁合作开发智能体可靠性工具。
因为失控的 agent 浪费几百美元 API 额度,基本上已经成为一种入门仪式了。这是我的经历。
我现在开始觉得这是一种共同经历了。我认识的所有构建 agentic AI 的人,git 历史深处都藏着同样的悄悄话:那个让 agent 无人看管跑了一整个周末的经历、周一收到的账单、试图弄清楚它到底做了什么的取证工作。我的经历是两天内花了 400 多美元。我的 agent 对着同一个研究任务换着法子自言自语了 48 小时,结果什么都没产出。感觉就像被一个非常有礼貌的 Phi
AI 代理依然拉胯,于是我自己造了一个
作者构建了一款自定义 AI 代理应用,封装了 Claude Code 并即将支持 Codex,侧重于可组合的工作流,并期待社区反馈。