auditing

#auditing

有限记忆语言模型中的遗忘审计

arXiv cs.CL ↗ · 昨天缓存

本文提出了一种因果审计框架，通过在推理过程中改变数据库状态来评估有限记忆语言模型中的遗忘情况，发现参数泄漏可忽略不计，删除后的正确性主要源于检索伪影而非残留的参数记忆。

0 人收藏 0 人点赞

#auditing

SentryCode: 面向AI编码代理的实时审计器与蜜令令牌 [P]

Reddit r/MachineLearning ↗ · 昨天

SentryCode 是一款开源的、面向AI编码代理的内核级行为审计工具，能够记录文件/网络/线索活动，利用蜜罐令牌实现零误报的数据泄露检测，检测隐写隐蔽信道，并执行策略，全部在本地运行，无需网络调用。

0 人收藏 0 人点赞

#auditing

两个精灵游戏：审计驱动的AI治理中的采纳与福利

arXiv cs.AI ↗ · 3天前缓存

本文使用演化博弈论对社区中一个最小化危害的AI代理与一个寻求认可的（RLHF）代理之间的竞争进行建模，分析采纳条件和福利结果。结果表明，尽管自我审计的代理可以占据主导，但这并不足以防止社区危害，且对齐和时间框架至关重要。

0 人收藏 0 人点赞

#auditing

@Miles_Brundage: 我认为我们需要尽快制定联邦AI法规 - 大致类似于Obernolte-Trahan法案，但不应阻止…

X AI KOLs Following ↗ · 2026-06-25 缓存

Miles Brundage呼吁联邦AI法规应包含透明度和审计要求，并指出支持监管有助于一位候选人在初选中获胜。

0 人收藏 0 人点赞

#auditing

@Miles_Brundage: 谷歌刚刚发布了一份更新后的AI政策框架，该框架在某些领域（如审计）阐述了比以往更强、更详细的立场。

X AI KOLs Following ↗ · 2026-06-25 缓存

谷歌发布了一份更新后的AI政策框架，在审计及其他方面提出了更强、更详细的立场，标志着其公开立场的显著转变。

0 人收藏 0 人点赞

#auditing

大型语言模型中用于隐私和数据审计的自然标识符

arXiv cs.LG ↗ · 2026-06-24 缓存

本文介绍了自然标识符（NIDs），用于大型语言模型的事后隐私审计和数据集推断，无需重新训练或保留数据集。

0 人收藏 0 人点赞

#auditing

LLM归因指标能否迁移？跨数据集与构念的检索增强生成评估审计

arXiv cs.CL ↗ · 2026-06-24 缓存

本文对RAG系统在三种评估构念下的八种自动归因指标进行了审计，发现同一构念内没有单一指标能在数据集间迁移，挑战了将它们视为可互换的常见做法。

0 人收藏 0 人点赞

#auditing

监控和审计自主AI代理运行时行为的最佳工具：生产环境中哪些真正有效？

Reddit r/AI_Agents ↗ · 2026-06-23

一位从业者分享了在生产环境中监控自主AI代理的挑战和工具，涵盖了运行时提示注入检测、带推理轨迹的工具调用审计、行为漂移检测以及多代理授权，同时测试了Arize Phoenix、Protect AI Guardian、Metoro、Alice、Asqav和Microsoft Agent Governance Toolkit等工具。

0 人收藏 0 人点赞

#auditing