令牌预算:63起LLM智能体预算超支事件的实证目录,以及基于仿射类型Rust缓解方案的案例研究
摘要
本文呈现了来自21个编排框架的63起经确认的LLM智能体预算超支事件的实证目录,按故障分类法组织,并介绍了一个使用仿射类型所有权的Rust crate,在编译时而非运行时防止令牌/成本预算违规。
LLM智能体预算超支是一类有记录的生产故障:单次重试循环可能在操作员察觉前花费数千美元,而能防止此类问题的进程内完整性属性(即无别名、无双重支出、无委托后使用成本承担值)即便有实施,也只是通过临时包装器而非类型系统。我们的核心贡献是实证性的:一个包含来自21个编排框架(2023-2026年)的63起经确认的生产事故的目录,每起事故都附有引用的GitHub问题,并在报告的情况下附有美元损失,按八类故障分类法组织(评分者间Cohen's kappa=0.837,N=113),外加47条补充结构性条目。作为针对该分类法评估的一种缓解方案,我们构建了token-budgets,一个1,180行(无unsafe代码)的Rust crate,它将仿射所有权操作化,使得克隆、双重支出或委托后使用预算成为编译错误,而非操作员必须记住避免的运行时风险。美元上限是在估算器假设下的运行时算术;仿射层使该算术不可绕过。在单智能体工作负载上,一个4行Python计数器与crate的表现持平(0/30超调),因此其区分价值在于多智能体委托中操作员错误下的不可绕过性:11起事故中记录的委托扇出竞态在编译时被借用检查器拒绝,而相同的asyncio模式超调30/30,三种纪律性替代方案超调0/30。在五个运行时、三个提供商以及温度分层实时API测试(N=160)中,该方法报告了零上限违规和零假拒绝,与同期工作的操作水平相当。静态过度预留为4-6倍(自适应2.11倍)。运行中二进制文件的二进制级别上限可靠性问题仍待解决。
相似文章
子代理在长代理运行中占据大部分Token成本:实际可将使用量降低70%至90%的修复方法
本文分析了 Bai 等人 2026 年的论文,该论文表明,子代理和上下文膨胀导致长代理运行中的Token成本比普通聊天高出约1000倍,并提出了三种实用的修复方法(PLAN.md、读取预算、带外备注),可将Token使用量减少70-90%。
BAGEN:LLM智能体是否具有预算意识?
本文介绍了BAGEN,一个评估LLM智能体预算意识的框架,将预算估计定义为内部预算和外部预算,并形式化了渐进式区间估计。实验表明,强智能体缺乏预算意识,过于乐观,提前停止可以节省令牌,而训练可以改善告警行为。
避免想太多与想太少:面向课程感知的LLM预算调度
BACR通过自适应token预算与课程感知调度,防止LLM在简单题上想太多、在难题上想太少,token用量降低34%,准确率最高提升8.3%。
面向LLM赋能代理工作流的可靠设计:优化延迟-可靠性-成本权衡
本文分析了LLM赋能代理工作流中延迟、可靠性和成本之间的权衡,引入了性能模型,并推导出了如注水令牌分配等最优资源分配策略。
大语言模型搜索代理的推理时预算控制
本文提出了一种用于大语言模型(LLM)搜索代理的两阶段推理时预算控制方法,利用信息价值(VOI)分数在多跳问答过程中优化工具调用和 Token 分配。