令牌预算：63起LLM智能体预算超支事件的实证目录，以及基于仿射类型Rust缓解方案的案例研究

Hugging Face Daily Papers 2026/06/02 00:00 论文

llm-agents budget-control rust type-safety production-incidents multi-agent cost-management

摘要

本文呈现了来自21个编排框架的63起经确认的LLM智能体预算超支事件的实证目录，按故障分类法组织，并介绍了一个使用仿射类型所有权的Rust crate，在编译时而非运行时防止令牌/成本预算违规。

LLM智能体预算超支是一类有记录的生产故障：单次重试循环可能在操作员察觉前花费数千美元，而能防止此类问题的进程内完整性属性（即无别名、无双重支出、无委托后使用成本承担值）即便有实施，也只是通过临时包装器而非类型系统。我们的核心贡献是实证性的：一个包含来自21个编排框架（2023-2026年）的63起经确认的生产事故的目录，每起事故都附有引用的GitHub问题，并在报告的情况下附有美元损失，按八类故障分类法组织（评分者间Cohen's kappa=0.837，N=113），外加47条补充结构性条目。作为针对该分类法评估的一种缓解方案，我们构建了token-budgets，一个1,180行（无unsafe代码）的Rust crate，它将仿射所有权操作化，使得克隆、双重支出或委托后使用预算成为编译错误，而非操作员必须记住避免的运行时风险。美元上限是在估算器假设下的运行时算术；仿射层使该算术不可绕过。在单智能体工作负载上，一个4行Python计数器与crate的表现持平（0/30超调），因此其区分价值在于多智能体委托中操作员错误下的不可绕过性：11起事故中记录的委托扇出竞态在编译时被借用检查器拒绝，而相同的asyncio模式超调30/30，三种纪律性替代方案超调0/30。在五个运行时、三个提供商以及温度分层实时API测试（N=160）中，该方法报告了零上限违规和零假拒绝，与同期工作的操作水平相当。静态过度预留为4-6倍（自适应2.11倍）。运行中二进制文件的二进制级别上限可靠性问题仍待解决。

查看原文

令牌预算：63起LLM智能体预算超支事件的实证目录，以及基于仿射类型Rust缓解方案的案例研究

相似文章

子代理在长代理运行中占据大部分Token成本：实际可将使用量降低70%至90%的修复方法

BAGEN：LLM智能体是否具有预算意识？

多智能体大语言模型系统中并发异常的验证检测与预防

token-budget-contracts v0.3.0 — LangGraph/CrewAI 适配器 + OpenTelemetry 实现多智能体令牌治理

避免想太多与想太少：面向课程感知的LLM预算调度

提交意见反馈