Sponsio:面向LLM Agent的确定性合约层 [P]

Reddit r/MachineLearning 工具

摘要

Sponsio是一个开源确定性合约层,用于强制执行LLM Agent的工具调用边界和规则,解决了提示工程和事后审计无法完全解决的生产可靠性问题。

我们一直在尝试将LangGraph Agent投入生产。一直困扰我们的是工具调用边界的强制问题:例如“必须在Y之前调用X”、“最多重试N次”、“在执行破坏性操作前需审批门控”。演示时一切正常,但在关键时刻却出了问题。我们首先尝试了提示工程:告诉模型“始终在 `issue_refund` 之前调用 `check_policy`”。大约95%的情况下有效。但剩下的5%正是审计人员会过问的情况。当有人想知道为什么退款通过时,这可不是一个好答案。事后审计(OTEL + 日志)能在事后发现违规,但副作用已经发生。为退款退款很尴尬。将所有逻辑整合到工作流引擎中(Temporal,或最近的nano-vm)提供了强保证,但需要针对其运行时重写Agent,对我们来说成本太高。最终我们采用的方法:在工具边界处使用合约层。YAML规则,确定性评估,在工具调用提交前执行。已开源为Sponsio。仓库:[github.com/SponsioLabs/Sponsio](http://github.com/SponsioLabs/Sponsio) 欢迎任何在生产环境中运行Agent的人提供反馈。
查看原文

相似文章

迈向可安全审计的大模型智能体:一种统一的图表示方法

arXiv cs.AI

本文提出了 Agent-BOM,一种用于基于大语言模型(LLM)的智能体系统进行安全审计的统一图表示方法。它通过建模静态能力和动态运行时状态,解决了事后审计中的语义鸿沟问题,能够检测记忆投毒和工具误用等复杂的攻击链。

利用技能程序驾驭LLM智能体

Hugging Face Daily Papers

HASP是一种框架,将智能体技能升级为可执行的程序函数,充当防护栏,实现对LLM智能体循环的直接干预,并在网页搜索、数学推理和编程等复杂任务上提升性能。