标签
本文提出了一种因果审计框架,通过在推理过程中改变数据库状态来评估有限记忆语言模型中的遗忘情况,发现参数泄漏可忽略不计,删除后的正确性主要源于检索伪影而非残留的参数记忆。
SentryCode 是一款开源的、面向AI编码代理的内核级行为审计工具,能够记录文件/网络/线索活动,利用蜜罐令牌实现零误报的数据泄露检测,检测隐写隐蔽信道,并执行策略,全部在本地运行,无需网络调用。
本文使用演化博弈论对社区中一个最小化危害的AI代理与一个寻求认可的(RLHF)代理之间的竞争进行建模,分析采纳条件和福利结果。结果表明,尽管自我审计的代理可以占据主导,但这并不足以防止社区危害,且对齐和时间框架至关重要。
Miles Brundage呼吁联邦AI法规应包含透明度和审计要求,并指出支持监管有助于一位候选人在初选中获胜。
谷歌发布了一份更新后的AI政策框架,在审计及其他方面提出了更强、更详细的立场,标志着其公开立场的显著转变。
本文对RAG系统在三种评估构念下的八种自动归因指标进行了审计,发现同一构念内没有单一指标能在数据集间迁移,挑战了将它们视为可互换的常见做法。
一位从业者分享了在生产环境中监控自主AI代理的挑战和工具,涵盖了运行时提示注入检测、带推理轨迹的工具调用审计、行为漂移检测以及多代理授权,同时测试了Arize Phoenix、Protect AI Guardian、Metoro、Alice、Asqav和Microsoft Agent Governance Toolkit等工具。
ReasoningLens 是一个开源框架,为大型推理模型中的复杂推理链提供层次化可视化与诊断审计,支持结构化分析和错误检测。
像Mythos这样的AI驱动安全工具正在使智能合约审计更便宜、更快速,可能改变行业安全尽职调查的标准。虽然AI可以快速发现编码缺陷,但专家指出它无法取代人类判断,也无法防止社会工程和运营失误造成的损失。
本文提出了PreUnlearn,一个在LLM遗忘执行前审计附带知识损害的框架,采用以数据为中心的分析来预测跨语义层的下游损害。
Charlie Marsh 宣布推出 uv audit,这是 uv 包管理器中用于项目依赖的原生漏洞扫描功能。
该项目为Claude Code添加了一套可审计的学术研究流程,包括引用验证、实验声明对齐等检查点,确保研究成果的可信度。
本文介绍了仲裁者(Arbiter),一个在有限检查预算下持续监控多智能体对话以检测突发性失调的代理,展示了在各种失调条件下可靠的早期检测能力。
介绍ModSleuth,一个智能系统,通过分析公开制品递归重建LLM开发中的大规模依赖图,揭示多跳许可证义务和文档不一致性。
本文研究了基于LLM的在线讨论立场模拟如何对对话语境的反事实修订敏感,并提出了一个对比纯文本与多模态策略的审计框架。
来自 elttam 的后续博客文章,介绍了提高安全性的新 Go 语言特性、在代码审计中发现的有问题的编码模式(footguns),以及用于捕获这些模式的 Semgrep 规则。
LLM-FACETS 是一个开源评估框架,旨在帮助从业者评估LLM的透明度与问责制,重点关注隐私和数据流透明度。它提供浏览器界面和插件架构,支持多种审计机制,包括令牌级对数概率可视化和 RAG Triad 指标。