OpenSquilla 发布开源 AI 代理以降低 Token 成本（4 分钟阅读）

TLDR AI 2026/05/15 00:00 工具

open-source ai-agent token-cost memory-architecture routing cost-optimization developer-tool

摘要

OpenSquilla 推出了一款开源 AI 代理运行时，通过智能路由、缓存和四层记忆架构来降低 Token 成本，声称可节省 60-80% 的费用。

OpenSquilla 推出了一款开源 AI 代理运行时，旨在通过高效复用上下文来减少不必要的 Token 消耗。

查看原文

查看缓存全文

缓存时间: 2026/05/16 00:14

# OpenSquilla 推出开源 AI Agent 以降低 Token 成本来源：https://www.testingcatalog.com/opensquilla-launches-open-source-ai-agent-to-cut-token-costs/ OpenSquilla 发布了其第一个公开版本——一个可自托管、开源的 AI Agent 运行时，其核心理念只有一个：大多数 Agent 部署在 Token 上花了不该花的钱，而运行它们的框架却没有提供真正的机制来阻止这种情况。该项目面向运行持续、长期工作 Agent 的开发者和团队——在这些场景中，Token 账单会随着会话累积，上下文管理在能力达到极限之前就成为运维瓶颈。在一场针对网关的本地测试中，三个提示（包括简单事实查询、中等复杂度的技术摘要，以及一个完整的 AI Agent 框架竞争分析）共处理了 279,762 个 Token，总会话成本为 0.0094 美元。其中，222,848 个 Token 来自缓存，约占所有输入 Token 的 80%——这直接得益于 OpenSquilla 跨轮次复用上下文，而不是每次调用都重新加载。会话期间，路由分类器始终保持活跃，并在每次查询时记录网关决策。安全沙箱在 Windows 上默认以无操作模式运行，而在 Linux 的生产部署中则提供完整的系统调用级隔离。 OpenSquilla 用量标签页成本降低依赖于一套协调的路由策略组合，而非单一调节手段。一个机器学习分类器将手动设计的信号（包括消息长度、代码块存在与否、关键词模式）与基于嵌入的语义特征相结合，对每个传入请求进行复杂度评分。简单查询路由至更便宜的模型。轻量级任务禁用深度推理，因此团队不会为琐碎提示的扩展思维链付费。技能按需加载，而非一股脑塞进每个上下文窗口。根据 OpenSquilla 自身的基准测试，与平坦的单模型配置相比，这些策略的综合效果可将 Token 花费降低 60% 至 80%。配额钩子和每次调用成本跟踪从一开始就已内置，因此超支可被自动捕捉并限制。 OpenSquilla t1&t2 内存通过四层认知架构处理，该架构模仿人类记忆结构，而非大多数 Agent 框架的近似方式： 1. **工作记忆** 保存当前任务。 2. **情景记忆** 跨会话记录经验和因果关联。 3. **语义记忆** 存储持久的常识和规则。 4. **原始记忆** 用作审计和再训练基础。检索结合了向量语义搜索和 BM25 全文搜索，并行运行，嵌入通过捆绑的 ONNX 推理在本地处理，数据保留在设备上，无需外部提供商。热内存提升机制自动将频繁检索的项提升至表层，而时间衰减功能则让过时记忆自然淡化，除非明确标记为永久。每 24 小时一次合并过程将散乱的记忆重构为更密集、更有组织的知识。该项目称之为“记忆梦合并”——类比睡眠对记忆的整合。 OpenSquilla t3 在安全性方面，OpenSquilla 使用系统调用级隔离而非包裹 Docker。三个策略层级控制工具的执行方式： 1. **标准操作** 直接运行。 2. **严格操作** 需要沙箱批准。 3. **锁定操作** 必须经过人工审核才能继续。沙箱在 Linux 上使用 Bubblewrap，在 macOS 上使用 Seatbelt 来隔离代码执行与真实文件系统，无需容器运行时依赖。拒绝记录会在连续三次拒绝后暂停 Agent，从而阻止暴力尝试突破限制操作。提示注入攻击通过将所有技能元数据和工具结果在到达模型之前进行 XML 转义来封闭。架构被描述为微内核：一个大约 100 行代码的核心编排器，负责状态管理和流水线调度，而所有能力——从 LLM 提供商、内存后端到通道适配器和工具集成——都作为可插拔模块在用户空间运行。编写一个插件需要一个五行的 duck-typed 类，无需基类、SDK 包或清单文件。网关提供超过十个内置通道，包括 Slack、Discord、Telegram、MS Teams、Matrix 以及多个企业消息平台。运行时以 v0.1.0 版本发布，采用 Apache-2.0 许可证，需要 Python 3.12+，可在 GitHub 上自托管。团队在发布的同时还推出了“10M Token Bill Challenge”，为希望将本框架与当前 Agent 基础设施成本进行基准测试的开发者提供免费 Token 积分。

相似文章

@AlchainHust: https://x.com/AlchainHust/status/2062699252913221707

X AI KOLs Timeline

OpenSquilla 是一个开源、可本地运行的 AI agent，通过 MetaSkill 技术让 AI 自动组织多个技能形成工作流，并实现跨厂商智能模型路由，显著降低使用成本。

@Yuancheng: ➤ 最近还是不断有新的 Agent Harness 思路和实践在出现。这两天看到 OpenSquilla，一个开源、能本地托管的 AI Agent。 ① 它有智能模型路由——同样的任务，token 成本比 OpenClaw 省 …

X AI KOLs Timeline

OpenSquilla 是一个开源、可本地托管的 AI Agent，具有智能模型路由功能，可在不同模型间分配任务以节省 token 成本，并引入 MetaSkill 机制让 Agent 自动组织技能。

OpenSquilla 发布开源 AI 代理以降低 Token 成本（4 分钟阅读）

相似文章

@AlchainHust: https://x.com/AlchainHust/status/2062699252913221707

@Yuancheng: ➤ 最近还是不断有新的 Agent Harness 思路和实践在出现。这两天看到 OpenSquilla，一个开源、能本地托管的 AI Agent。 ① 它有智能模型路由——同样的任务，token 成本比 OpenClaw 省 …

你们究竟是如何降低 Agent 系统成本的？

子代理在长代理运行中占据大部分Token成本：实际可将使用量降低70%至90%的修复方法

你的OpenClaw AI代理是不是在疯狂消耗代币？

提交意见反馈

相似文章

@AlchainHust: https://x.com/AlchainHust/status/2062699252913221707

@Yuancheng: ➤ 最近还是不断有新的 Agent Harness 思路和实践在出现。 这两天看到 **OpenSquilla**，一个开源、能本地托管的 AI Agent。 ① 它有智能模型路由——同样的任务，token 成本比 OpenClaw 省 …

你们究竟是如何降低 Agent 系统成本的？

子代理在长代理运行中占据大部分Token成本：实际可将使用量降低70%至90%的修复方法

你的OpenClaw AI代理是不是在疯狂消耗代币？

提交意见反馈

@Yuancheng: ➤ 最近还是不断有新的 Agent Harness 思路和实践在出现。这两天看到 OpenSquilla，一个开源、能本地托管的 AI Agent。 ① 它有智能模型路由——同样的任务，token 成本比 OpenClaw 省 …