形式化方法遇上大语言模型:面向先进AI系统合规性的审计、监控与干预
摘要
本文提出了一种将形式化方法(线性时序逻辑)与大语言模型相结合的技术,用于审计、监控和干预AI系统以确保其符合行为约束。研究表明,即便是小模型标注器在检测违规行为方面也能媲美前沿大语言模型裁判。
arXiv:2605.16198v1 公告类型:新
摘要:我们探讨了AI治理的一个特定维度:如何在AI开发全生命周期中监控和审计AI赋能的产品与服务,从部署前测试到部署后审计。通过结合形式化方法的原则与最先进的机器学习,我们提出的技术使AI产品和服务开发者,以及第三方AI开发者和评估者,能够对黑盒先进AI系统(尤其是大语言模型)进行离线审计和在线(运行时)监控,涉及产品特定的(时间延展的)行为约束,如安全约束、规范、规则和法规。我们进一步提供了预测性监控的实用技术,例如基于采样的方法,并引入了在运行时采取行动的干预监控器,以预先防范并可能减轻预测到的违规行为。实验结果表明,通过利用线性时序逻辑(LTL)的形式化语法和语义,我们提出的审计和监控技术在检测时间延展行为约束的违规方面优于LLM基线方法;采用我们的方法,即使小模型标注器也能达到甚至超越前沿LLM裁判。我们的预测和干预监控器显著降低了基于LLM的智能体的违规率,同时很大程度上保持了任务性能。我们进一步通过受控实验表明,LLM的时间推理准确性随着事件距离、约束数量和命题数量的增加而明显下降。
相似文章
我们一直在分析人们如何在法律与合规任务中使用LLM(GDPR、AI法案等)。
对LLM在法律与合规任务中使用的分析显示,模型常常生成自信但无法验证的引用,引发了对AI输出可靠法律依据的质疑。
闭环:形式化验证的法律作为自我改进法律AI的奖励信号
本文提出了一种架构,该架构使用形式化验证的法律作为训练法律AI的奖励信号,自适应地将法律规则自动形式化为形式化演算,并采用验证器确保可证明的正确性,在德国和美国法律示例上进行了演示。
FactoryLLM: 一个用于在智能工厂中评估LLM的安全开源AI试验场
FactoryLLM是一个开源AI试验场,用于评估智能工厂故障诊断中基于LLM的RAG模型,支持本地LLM和双重评估指标。一项包含三个LLM的案例研究显示,在来自600页跨机器文档的30个维护查询中,接地性得分均超过0.88。
基于LLM的服务反馈新兴主题检测模型
本文提出了一种新颖的方法论,整合了LLM、统计技术和人机协同,用于检测多语言服务反馈中的新兴主题,旨在提升公共部门组织的服务质量和公平性。
法律中多智能体协商研究
本文研究了使用LLM进行法律推理任务的多智能体协商方法,引入了两种受法庭程序启发的新框架。实验表明,多智能体系统在整体性能上与单一LLM相当,但能产生截然不同的答案,并能解决基线模型无法处理的案例,突显了多智能体方法在法律AI中的潜力。