auditing

标签

Cards List
#auditing

有限记忆语言模型中的遗忘审计

arXiv cs.CL · 昨天 缓存

本文提出了一种因果审计框架,通过在推理过程中改变数据库状态来评估有限记忆语言模型中的遗忘情况,发现参数泄漏可忽略不计,删除后的正确性主要源于检索伪影而非残留的参数记忆。

0 人收藏 0 人点赞
#auditing

SentryCode: 面向AI编码代理的实时审计器与蜜令令牌 [P]

Reddit r/MachineLearning · 昨天

SentryCode 是一款开源的、面向AI编码代理的内核级行为审计工具,能够记录文件/网络/线索活动,利用蜜罐令牌实现零误报的数据泄露检测,检测隐写隐蔽信道,并执行策略,全部在本地运行,无需网络调用。

0 人收藏 0 人点赞
#auditing

两个精灵游戏:审计驱动的AI治理中的采纳与福利

arXiv cs.AI · 3天前 缓存

本文使用演化博弈论对社区中一个最小化危害的AI代理与一个寻求认可的(RLHF)代理之间的竞争进行建模,分析采纳条件和福利结果。结果表明,尽管自我审计的代理可以占据主导,但这并不足以防止社区危害,且对齐和时间框架至关重要。

0 人收藏 0 人点赞
#auditing

@Miles_Brundage: 我认为我们需要尽快制定联邦AI法规 - 大致类似于Obernolte-Trahan法案,但不应阻止…

X AI KOLs Following · 2026-06-25 缓存

Miles Brundage呼吁联邦AI法规应包含透明度和审计要求,并指出支持监管有助于一位候选人在初选中获胜。

0 人收藏 0 人点赞
#auditing

@Miles_Brundage: 谷歌刚刚发布了一份更新后的AI政策框架,该框架在某些领域(如审计)阐述了比以往更强、更详细的立场。

X AI KOLs Following · 2026-06-25 缓存

谷歌发布了一份更新后的AI政策框架,在审计及其他方面提出了更强、更详细的立场,标志着其公开立场的显著转变。

0 人收藏 0 人点赞
#auditing

大型语言模型中用于隐私和数据审计的自然标识符

arXiv cs.LG · 2026-06-24 缓存

本文介绍了自然标识符(NIDs),用于大型语言模型的事后隐私审计和数据集推断,无需重新训练或保留数据集。

0 人收藏 0 人点赞
#auditing

LLM归因指标能否迁移?跨数据集与构念的检索增强生成评估审计

arXiv cs.CL · 2026-06-24 缓存

本文对RAG系统在三种评估构念下的八种自动归因指标进行了审计,发现同一构念内没有单一指标能在数据集间迁移,挑战了将它们视为可互换的常见做法。

0 人收藏 0 人点赞
#auditing

监控和审计自主AI代理运行时行为的最佳工具:生产环境中哪些真正有效?

Reddit r/AI_Agents · 2026-06-23

一位从业者分享了在生产环境中监控自主AI代理的挑战和工具,涵盖了运行时提示注入检测、带推理轨迹的工具调用审计、行为漂移检测以及多代理授权,同时测试了Arize Phoenix、Protect AI Guardian、Metoro、Alice、Asqav和Microsoft Agent Governance Toolkit等工具。

0 人收藏 0 人点赞
#auditing

ReasoningLens:大型推理模型的层次化可视化与诊断审计

Hugging Face Daily Papers · 2026-06-22 缓存

ReasoningLens 是一个开源框架,为大型推理模型中的复杂推理链提供层次化可视化与诊断审计,支持结构化分析和错误检测。

0 人收藏 0 人点赞
#auditing

AI让加密货币安全更便宜、更快速且更难以忽视

Reddit r/artificial · 2026-06-21 缓存

像Mythos这样的AI驱动安全工具正在使智能合约审计更便宜、更快速,可能改变行业安全尽职调查的标准。虽然AI可以快速发现编码缺陷,但专家指出它无法取代人类判断,也无法防止社会工程和运营失误造成的损失。

0 人收藏 0 人点赞
#auditing

PreUnlearn:在大语言模型遗忘前审计附带知识损害

arXiv cs.CL · 2026-06-18 缓存

本文提出了PreUnlearn,一个在LLM遗忘执行前审计附带知识损害的框架,采用以数据为中心的分析来预测跨语义层的下游损害。

0 人收藏 0 人点赞
#auditing

@charliermarsh: 宣布 uv audit:原生支持扫描项目依赖中的漏洞

X AI KOLs Following · 2026-06-16 缓存

Charlie Marsh 宣布推出 uv audit,这是 uv 包管理器中用于项目依赖的原生漏洞扫描功能。

0 人收藏 0 人点赞
#auditing

@vintcessun: 学术Agent最头疼的问题不是写不出,而是写出来没法保证可信。这个项目直接给Claude Code加了一套可审计的学术管道:从研究到写作到审稿回复,每一阶段都有硬性检查点——比如用四库引用验证查真假,用实验声明对齐防止夸大,用审稿回复审计…

X AI KOLs Timeline · 2026-06-16 缓存

该项目为Claude Code添加了一套可审计的学术研究流程,包括引用验证、实验声明对齐等检查点,确保研究成果的可信度。

0 人收藏 0 人点赞
#auditing

仲裁者代理:持续监控多智能体对话以检测突发性失调

arXiv cs.AI · 2026-06-10 缓存

本文介绍了仲裁者(Arbiter),一个在有限检查预算下持续监控多智能体对话以检测突发性失调的代理,展示了在各种失调条件下可靠的早期检测能力。

0 人收藏 0 人点赞
#auditing

我们的模型基于哪些模型?审计现代LLM中的隐形依赖关系

Hugging Face Daily Papers · 2026-06-10 缓存

介绍ModSleuth,一个智能系统,通过分析公开制品递归重建LLM开发中的大规模依赖图,揭示多跳许可证义务和文档不一致性。

0 人收藏 0 人点赞
#auditing

uv 中的漏洞和恶意软件检查

Lobsters Hottest · 2026-06-08 缓存

uv 宣布新的安全功能:快速的依赖审计命令(uv audit)以及同步操作中的可选恶意软件扫描,两者目前均为预览版。

0 人收藏 0 人点赞
#auditing

具有审计功能的智能体执行引擎,解决提示注入问题

Reddit r/AI_Agents · 2026-06-05

该工具基于纯数学和确定性构建,用于解决间接提示注入和智能体漂移,提供纯审计追踪链。创建者正在寻找试点兴趣。

0 人收藏 0 人点赞
#auditing

修订语境,转变模拟立场:审计基于LLM的在线讨论立场模拟

Hugging Face Daily Papers · 2026-06-04 缓存

本文研究了基于LLM的在线讨论立场模拟如何对对话语境的反事实修订敏感,并提出了一个对比纯文本与多模态策略的审计框架。

0 人收藏 0 人点赞
#auditing

Golang 代码审查笔记 II

Lobsters Hottest · 2026-06-03 缓存

来自 elttam 的后续博客文章,介绍了提高安全性的新 Go 语言特性、在代码审计中发现的有问题的编码模式(footguns),以及用于捕获这些模式的 Semgrep 规则。

0 人收藏 0 人点赞
#auditing

LLM-FACETS:一种用于评估LLM透明度与问责制的隐私保护框架

arXiv cs.AI · 2026-06-01 缓存

LLM-FACETS 是一个开源评估框架,旨在帮助从业者评估LLM的透明度与问责制,重点关注隐私和数据流透明度。它提供浏览器界面和插件架构,支持多种审计机制,包括令牌级对数概率可视化和 RAG Triad 指标。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈