面向受监管行业的智能体AI的不同方法 - 问题探讨
摘要
总结了一种确定性的、基于约束的方法,用于在受监管金融领域构建AI智能体,其中LLM仅生成散文,数字通过加密方式密封,并通过分层结构确保可审计性。
上次我学习了如何将图用作AI智能体的工作流。这次我从一位朋友那里学到了不同的东西。我认为这很精彩,但也想听听其他意见。你怎么看?这是一篇我为了自学而写的文章的摘要。文章免费开放,包含代码示例。用例针对金融行业(欧洲,严格法规)。我不销售任何东西。你可以阅读。我完全不追踪访客。我只是想学习。你怎么看?完整文章链接在评论中。以下是摘要:
1. **行动空间:开放发现 vs. 封闭世界**
* **通常的AI智能体:** 智能体自主行动,在运行时动态搜索其能力(工具),并自由决定如何完成任务。这常常导致不可预测的行为,或者智能体访问未经授权的工具。
* **本方法:** 智能体在预定义的、严格受限的决策空间内操作。它只能执行明确列在“访客名单”(声明式权限)上的操作。虽然它可以在此框架内规划,但永远无法“发明”新能力。
2. **LLM的角色:通才 vs. 纯文案**
* **通常的AI智能体:** 大语言模型(LLM)处理一切:管理流程、执行计算、做出决策并撰写最终文本。
* **本方法:** LLM处于链的最末端,**仅负责措辞**。它没有决策或数学权限。在调用LLM之前,数据会经过一个类似本体的严格包(有效性检查)和一个确定性规则引擎(计算)。
3. **处理数字:幻觉风险 vs. 物理不可能(密封事实)**
* **通常的AI智能体:** LLM生成包含数字的报告。始终存在模型产生幻觉或轻微改变数字的风险。
* **本方法:** LLM不书写任何数字。确定性规则引擎计算数值,并用加密指纹将其密封。模型仅提供带有**占位符**的文本(例如,`"损失为 {loss_percent}%"`)。然后标准代码将密封的数字注入占位符中。因此,数字幻觉在物理上是不可能的。
4. **评估:AI裁判 vs. 确定性故障关闭**
* **通常的AI智能体:** 为了发现错误,通常使用第二个AI(LLM作为裁判)来读取、解释并评分第一个AI的输出。或者实施事后测试输出的评估。
* **本方法:** 没有第二个AI来评判文本。检查(**故障关闭**)是纯代码。它将生成的文本与硬规则进行比较。如果检查失败,文本将被丢弃,并在更严格的约束下重新生成。
5. **可审计性与可追溯性(合规性)**
* **通常的AI智能体:** 决策过程是一个黑箱。对于监管机构(如德国联邦金融监管局BaFin)来说,追踪AI为何选择特定阈值或得出特定结论极为困难。
* **本方法:** 架构清晰分为三个可审计的层级:
* **类似本体:** 定义词汇和有效性(业务部门可读)。
* **决策空间:** 定义权限(不含计算逻辑)。
* **规则引擎:** 用于计算的经典代码。审计员可以单独测试和签署这些层级,确保AI生成的散文与硬数学永远不会混淆。
**总结:** 传统的智能体方法试图最大化智能和自主性(事后通过AI评估捕捉错误),而本方法设置了**硬性的、确定性的前置边界**。AI不是独立行动者,而是预先批准系统中高度受限的工具,这在高度受监管的行业(如金融)中非常有帮助。
相似文章
如何为监管审批设计AI代理?
探讨如何为受监管行业(如SaMD class II)设计AI代理,平衡非确定性代理的实用性与确定性安全区域,以满足监管合规要求。
受监管环境中代理工作流的AI治理:生产环境中真正有效的方法是什么?
关于在高度监管环境中设计AI代理系统的讨论,重点关注误报挑战以及如何在不增加认知负荷的情况下向用户呈现模型置信度。
金融合规基础设施作为AI代理问责制的蓝图——包含现有技术调查
本文认为,数十年来为自动化金融交易建立的问责制基础设施为治理AI代理提供了蓝图,借鉴了FINRA规则5310和SEC规则17a-4等具体监管机制。
有人能帮我理解AI Agent的用例或让我信服吗?
一位软件开发者质疑AI Agent的实际价值,表达了对控制权、问责制的担忧,并怀疑手动自动化结合LLM是否比委托给自主代理更可靠。
我们让AI代理访问数据库、邮件系统和支付API。然后我们只是……信任它们。
本文强调了当前对能够访问数据库、邮件系统和支付API的AI代理严重缺乏治理层,指出目前在没有监督的情况下信任LLM的做法危险且不足。