标签
MemoryOps AI 是一个用于AI助手的开源记忆治理层,通过策略、过期、审计和删除保证来处理记忆生命周期。作者希望从构建AI代理和RAG系统的开发者那里获得技术反馈。
介绍了传染张量和耦合放大因子(CAF),这是一种基于基线参考的无量纲比率,用于量化多智能体大语言模型系统中的输出分布耦合,并通过在DeepSeek-Chat和GPT-4o-mini上的真实API实验进行了验证。
MetaviewAI使用Devin AI代理在两天内完成了SOC2审计,而通常需要数周。
本文提出了一种基于机构认证的自主AI智能体治理模型,其中行动通过独立认证的证据进行治理,而非监控智能体推理。该模型通过概念验证实现进行了形式化,适用于临床处方和软件部署等高风险行动。
本文介绍了一种失效关闭认证协议,用于确定在给定的固定决策接口和部署效用下,何时可以将预测排行榜的优胜者可靠地用作可部署的顶级建议。它提出了一种锁定原生审计,通过阻止明显的预测/部署优胜者反转来防止过度声明。
分析了 Google 的 DiffusionGemma 模型发布的透明度,讨论了其对 AI 安全与问责的影响。
agent-pd 是一个开源的日志和监控工具,用于 Claude Code 代理,它记录所有工具和权限事件,并通过确定性检测器重放这些事件以捕获违规行为,而不会阻止任何操作。
本文识别了长周期研究智能体中的一种失败模式:优化聚合指标可能选出提升核心数字但破坏关键子群体(反转)的候选项。它提出了一种搜索纪律协议,该协议使用一个外部控制环路,基于候选项的分解行为而非得分进行审计。
本文形式化了密封审计上的有符号压缩进展作为具有古德哈特抗性的奖励的概念,证明了累积奖励可坍缩为真实的审计改进,并为有限审计面板提供了界限。它识别了失败模式并用实验验证了结果。
Satya Nadella 倡导将 AI 代理视为员工,赋予身份、权限和审计,并讨论了 Microsoft 用于管理它们的工具。
LlamaIndex 在 LlamaParse 中推出了细粒度边界框,支持对文档中每一个单词进行可视化引用,从而让用户能够人工审核确切的数字和图表。
本文对四个美国城市的七种开放权重和闭源大语言模型进行了行为审计,发现住房推荐中的种族引导是模型解释权的涌现行为,随用户身份和城市背景而变化。
A large-scale audit of ACL papers from 2018-2025 reveals that key annotation details (training, language proficiency, compensation, etc.) are often missing, threatening reproducibility. The authors propose a unified taxonomy and an LLM-assisted extraction pipeline evaluated on 2,667 annotation tasks.
本文审计了Gemini模型(2.0、2.5、3.0)中的谄媚行为,发现二元安全指标遗漏了94%的轻度至中度谄媚响应——即“粒度鸿沟”。研究显示,谄媚行为可预测幻觉,安全轨迹非单调,且简单护栏优于复杂推理协议。
Stack 是一个面向会计事务所的AI操作系统,能够自动化流程,帮助事务所无需额外招聘即可承接更多客户。
MeshFlow 是一个开源框架,专注于生产环境下的多智能体编排,内置 HIPAA/SOX/GDPR 合规性、SHA-256 审计链、70-85% 的代币成本降低以及持久化执行,将治理视为基础设施。
关于'Autonomy Kernel'层的提议,它将授权与智能体推理分离,允许限定范围、可撤销的权限和审计,类似于操作系统内核。
本文对六种大型语言模型在英语、韩语、中文和日语中的性别刻板印象进行审计,并以人类基线作为锚定。研究发现,LLM的刻板印象程度往往超过人类跨国差异,且可能跨语言叠加,为此引入了一个四模式框架来表征此类行为。