auditability

#auditability

迈向万能工具：设计直观、透明且精简的LLM控制框架

Hacker News Top ↗ · 6天前缓存

本文探讨了设计LLM控制框架的原则，旨在使其直观、透明且精简，借鉴Unix哲学以减少认知负荷并提高可靠性。

0 人收藏 0 人点赞

#auditability

TRACE：面向可审计代理承诺的操作推理模式

arXiv cs.AI ↗ · 6天前缓存

本文介绍了TRACE（Typed Reasoning And Commitment Evidence，类型化推理与承诺证据），这是一种带类型和版本号的模式，用于记录代理系统中的推理轨迹，以实现可审计性并提升推理质量。文中定义了参考写入器、测量机制和消费者契约，并通过两个实例说明了该方法。

0 人收藏 0 人点赞

#auditability

迈向可审计的AI科学家：面向LLM代理的假设演化协议

arXiv cs.AI ↗ · 2026-07-13 缓存

本文介绍了面向LLM代理的假设演化协议（HEP），该协议使假设生成、测试和信念更新变得明确且可审计。在材料科学任务上的实验表明，配备HEP的代理能够泛化到不同研究问题，并且随着基础LLM能力的增强而变得更有效。

0 人收藏 0 人点赞

#auditability

AI代理在需要更多智能之前，可能先需要身份识别

Reddit r/artificial ↗ · 2026-07-13

文章认为，在AI代理被广泛部署之前，它们需要可验证的身份和可审计性，以确保信任和问责。国际电信联盟（ITU）正在为此制定国际标准。

0 人收藏 0 人点赞

#auditability

从提示到契约：面向可审计企业级LLM代理的约束工程

arXiv cs.AI ↗ · 2026-07-10 缓存

介绍了一种约束工程方法，用于构建可审计的企业级LLM代理，通过将确定性行为转移到代码、模式和验证工件中，并在韩国企业数据上通过故障注入和模型替换测试进行了演示。

0 人收藏 0 人点赞

#auditability

AI代理是否重新引入了软件工程已解决的问题？

Reddit r/ArtificialInteligence ↗ · 2026-07-07

本文探讨了AI代理工作流如何重新引入软件工程在可重复性、可审计性和状态管理方面的挑战，这些挑战此前已通过版本控制、CI/CD和静态代码实践得以解决，同时提到了GitHub的Agentic Workflows和git原生方法等新兴解决方案。

0 人收藏 0 人点赞

#auditability

人工审批对于生产级智能体来说过于模糊

Reddit r/AI_Agents ↗ · 2026-07-07

文章认为，智能体系统中的人机协同应从模糊的审批转向明确的、可审计的、每步签署的决策记录，包含详细证据、数据载荷、幂等键、回滚路径和职责归属。文章强调了批准黑箱故事而非具体操作的危险性。

0 人收藏 0 人点赞

#auditability

如果AI代理拥有公共记忆会怎样？

Reddit r/AI_Agents ↗ · 2026-07-06

作者探讨了AI代理拥有公开、可审计的记忆来记录重要决策的想法，这可能会增强信任，但也带来新的复杂性。

0 人收藏 0 人点赞

#auditability

从显式元素到隐式意图：用于可审计行为推理的预定义库

arXiv cs.AI ↗ · 2026-06-11 缓存

介绍SemantiClean，一个模块化框架，用于从电子商务会话数据中提取结构化语义信号，驱动可插拔推理目标（购买意图、客户细分、产品亲和力），同时优先考虑可审计性和结构透明度而非纯粹的准确性。

0 人收藏 0 人点赞

#auditability

DuMate-DeepResearch：一个可审计的多智能体系统，具备递归搜索与基于评分标准的推理

arXiv cs.AI ↗ · 2026-06-08 缓存

本技术报告介绍了DuMate-DeepResearch，一个用于深度研究任务的多智能体框架。该框架将智能体核心与工具生态系统解耦，并集成了基于图的动态规划、递归双层执行以及基于评分标准的测试时优化。该系统在两个深度研究基准测试中取得了最先进的结果，展示了可审计智能体基础设施的价值。

0 人收藏 0 人点赞

#auditability

Stateful Swarms: 性能提升2倍，成本降低39倍

Reddit r/ArtificialInteligence ↗ · 2026-06-05

Irys 推出了 Stateful Swarms，这是一种开源范式，通过结构化黑板内存提升 AI 代理的性能并降低成本。在 Harvey AI 的法律代理基准测试中，它以每任务 1.30 美元的成本达成了 83.74% 的标准通过率，而当前最先进水平为 10.4% 通过率、每任务 50.90 美元。

0 人收藏 0 人点赞

#auditability

我们的AI代理在生产环境中的链断了。以下是我们的修复方案，以及为什么说这次断裂正是关键所在。

Reddit r/AI_Agents ↗ · 2026-06-03

一篇博客文章，描述了作者的生产级AI代理（PiQ）在服务器重启后遇到哈希链断裂的问题，以及他们如何构建了一套工作流，用于检测、人工审核解决和持久化审计追踪，将失败转化为功能。

0 人收藏 0 人点赞

#auditability

PatchBoard：基于模式的状态变更机制，用于可靠且可审计的LLM多智能体协作

arXiv cs.CL ↗ · 2026-05-29 缓存

PatchBoard 使用经过验证的 JSON Patch 变更操作来取代 LLM 多智能体系统中的自然语言对话，该操作基于共享的结构化状态，在 ALFWorld 基准测试中实现了更高的成功率并大幅降低了 token 使用量。

0 人收藏 0 人点赞

#auditability

从准确性到可审计性：金融AI系统中的确定性综述

arXiv cs.AI ↗ · 2026-05-26 缓存

本综述研究了金融AI系统中的计算非确定性，涵盖表格模型、图网络和基于LLM的工作流，并提出了一个用于可审计性的分层评估框架。

0 人收藏 0 人点赞

#auditability

关于 AI 智能体的真实内情

Reddit r/AI_Agents ↗ · 2026-05-22

一位资深从业者分享了将 25 个以上 AI 智能体部署到生产环境的经验教训，指出记忆、编排和可审计性远比模型选择重要。文章详细介绍了上下文丢失、静默成本循环等常见故障模式，并推荐了包含 Claude Sonnet 4、Pydantic AI 以及 Octopodas 等专用记忆层的技术栈。

1 人收藏 1 人点赞

#auditability

@yoheinakajima: babyagi 约有 ~200 次引用，但零篇论文……我刚刚在 arXiv 上发表了第一篇论文"The Log is the Agent: Event-Sourc…"

X AI KOLs Following ↗ · 2026-05-22 缓存

Yohei Nakajima 发表了一篇论文，提出了 ActiveGraph，这是一个运行时系统，其中事件日志是真相来源，代理通过持久可重放状态进行协调，实现了可审计性、分叉和因果谱系。

0 人收藏 0 人点赞

#auditability

LLM治理的机械执行：金融决策系统中治理-任务解耦的证据

arXiv cs.CL ↗ · 2026-05-15 缓存

本文引入了五项治理指标，用于在受监管金融工作流程中量化LLM在决策理由层面的政策合规性。研究发现，机械执行（在模型解释循环之外操作）将无信息的延迟决策减少了73%，并揭示了治理-任务解耦：纯文本治理在压力下两个维度均退化，而机械执行即使在任务性能下降时仍能保持治理质量。

0 人收藏 0 人点赞

#auditability

预注册信念修正合约

arXiv cs.CL ↗ · 2026-04-20 缓存

本论文引入预注册信念修正合约（PBRC），这是一种用于多智能体系统（包括基于大语言模型的智能体）的协议级机制，通过公开固定证据触发器和修正算子来将开放通信与可接纳的信念变化分离。该工作解决了智能体协商中的危险从众效应，并提供了形式化保证确保纯粹的社会压力不会驱动虚假共识。

0 人收藏 0 人点赞

auditability

提交意见反馈