OpenSquilla 发布开源 AI 代理以降低 Token 成本(4 分钟阅读)

TLDR AI 工具

摘要

OpenSquilla 推出了一款开源 AI 代理运行时,通过智能路由、缓存和四层记忆架构来降低 Token 成本,声称可节省 60-80% 的费用。

OpenSquilla 推出了一款开源 AI 代理运行时,旨在通过高效复用上下文来减少不必要的 Token 消耗。
查看原文
查看缓存全文

缓存时间: 2026/05/16 00:14

# OpenSquilla 推出开源 AI Agent 以降低 Token 成本 来源:https://www.testingcatalog.com/opensquilla-launches-open-source-ai-agent-to-cut-token-costs/ OpenSquilla 发布了其第一个公开版本——一个可自托管、开源的 AI Agent 运行时,其核心理念只有一个:大多数 Agent 部署在 Token 上花了不该花的钱,而运行它们的框架却没有提供真正的机制来阻止这种情况。该项目面向运行持续、长期工作 Agent 的开发者和团队——在这些场景中,Token 账单会随着会话累积,上下文管理在能力达到极限之前就成为运维瓶颈。 在一场针对网关的本地测试中,三个提示(包括简单事实查询、中等复杂度的技术摘要,以及一个完整的 AI Agent 框架竞争分析)共处理了 279,762 个 Token,总会话成本为 0.0094 美元。其中,222,848 个 Token 来自缓存,约占所有输入 Token 的 80%——这直接得益于 OpenSquilla 跨轮次复用上下文,而不是每次调用都重新加载。会话期间,路由分类器始终保持活跃,并在每次查询时记录网关决策。安全沙箱在 Windows 上默认以无操作模式运行,而在 Linux 的生产部署中则提供完整的系统调用级隔离。 OpenSquilla 用量标签页 成本降低依赖于一套协调的路由策略组合,而非单一调节手段。一个机器学习分类器将手动设计的信号(包括消息长度、代码块存在与否、关键词模式)与基于嵌入的语义特征相结合,对每个传入请求进行复杂度评分。简单查询路由至更便宜的模型。轻量级任务禁用深度推理,因此团队不会为琐碎提示的扩展思维链付费。技能按需加载,而非一股脑塞进每个上下文窗口。根据 OpenSquilla 自身的基准测试,与平坦的单模型配置相比,这些策略的综合效果可将 Token 花费降低 60% 至 80%。配额钩子和每次调用成本跟踪从一开始就已内置,因此超支可被自动捕捉并限制。 OpenSquilla t1&t2 内存通过四层认知架构处理,该架构模仿人类记忆结构,而非大多数 Agent 框架的近似方式: 1. **工作记忆** 保存当前任务。 2. **情景记忆** 跨会话记录经验和因果关联。 3. **语义记忆** 存储持久的常识和规则。 4. **原始记忆** 用作审计和再训练基础。 检索结合了向量语义搜索和 BM25 全文搜索,并行运行,嵌入通过捆绑的 ONNX 推理在本地处理,数据保留在设备上,无需外部提供商。热内存提升机制自动将频繁检索的项提升至表层,而时间衰减功能则让过时记忆自然淡化,除非明确标记为永久。每 24 小时一次合并过程将散乱的记忆重构为更密集、更有组织的知识。该项目称之为“记忆梦合并”——类比睡眠对记忆的整合。 OpenSquilla t3 在安全性方面,OpenSquilla 使用系统调用级隔离而非包裹 Docker。三个策略层级控制工具的执行方式: 1. **标准操作** 直接运行。 2. **严格操作** 需要沙箱批准。 3. **锁定操作** 必须经过人工审核才能继续。 沙箱在 Linux 上使用 Bubblewrap,在 macOS 上使用 Seatbelt 来隔离代码执行与真实文件系统,无需容器运行时依赖。拒绝记录会在连续三次拒绝后暂停 Agent,从而阻止暴力尝试突破限制操作。提示注入攻击通过将所有技能元数据和工具结果在到达模型之前进行 XML 转义来封闭。 架构被描述为微内核:一个大约 100 行代码的核心编排器,负责状态管理和流水线调度,而所有能力——从 LLM 提供商、内存后端到通道适配器和工具集成——都作为可插拔模块在用户空间运行。编写一个插件需要一个五行的 duck-typed 类,无需基类、SDK 包或清单文件。网关提供超过十个内置通道,包括 Slack、Discord、Telegram、MS Teams、Matrix 以及多个企业消息平台。运行时以 v0.1.0 版本发布,采用 Apache-2.0 许可证,需要 Python 3.12+,可在 GitHub 上自托管。团队在发布的同时还推出了“10M Token Bill Challenge”,为希望将本框架与当前 Agent 基础设施成本进行基准测试的开发者提供免费 Token 积分。

相似文章

你们究竟是如何降低 Agent 系统成本的?

Reddit r/AI_Agents

本文探讨了 AI Agent 系统在成本优化和 FinOps 方面面临的挑战,指出了 Token 账单不可预测、缺乏细粒度归因工具等问题,并提到了缓存和硬性限制等应对策略。

每个AI提示都需花费成本——这改变了一切

Reddit r/AI_Agents

文章认为,AI的真正挑战不仅在于构建更智能的模型,更在于以规模化的方式降低成本效率,强调了减少token使用、提升速度以及优化基础设施的重要性。

AI agents 正在改变人们对计算成本的看法

Reddit r/AI_Agents

本文讨论了AI代理工作流如何将优化重心从单纯的推理成本转向更广泛的挑战,如延迟、编排开销和可靠性。文章强调了向混合架构和动态模型路由发展的趋势,以应对这些多步骤工作流的复杂性。