标签
Fable 5 模型仅通过4个提示词和173美元token就制作了一款名为《超级智能竞速赛》的游戏,展示了极强的生成能力。
NVIDIA全栈推理软件与硬件协同设计,仅一个月内就在Blackwell平台上将Token成本降低多达5倍,为AI工厂实现更低的每Token成本。Baseten、Cognition、Deep Infra和Together AI等公司正在使用该软件栈优化推理性能。
一份报告指出,在轨道上运营AI数据中心每个token的成本是地面数据中心的8到12倍,凸显了太空AI计算面临的重大成本障碍。
Bellwethr 正在开发一种开放方法,用于追踪来自高性能模型的单个推理 token 的实际美元成本,目前基准测试套件草案和社区贡献正在进行中。
宣布 mattpocock/skills 版本1,这是一组AI技能定义,可将token成本降低63%,并引入了新的技能,用于代码库设计、领域建模等。
讨论如何通过结构化信息而非将所有内容都输入语言模型的上下文来降低 token 成本,并以一个 RLM 代理处理大量日志行但只使用少量活跃 token 为例。
一个 GitHub 工具,通过根据提示复杂度动态调整 effort/thinking 参数来降低 Claude API 成本。
这篇论文提出了一个名为 Efficiency Frontier 的统一框架,将大模型上下文管理视为部署优化问题,联合建模任务表现、token 开销和预处理复用。在 5000 个 HotpotQA 实例上,部署优化可节省 25% 的 token 量,而记忆压缩在高精度场景下比全上下文便宜一半以上。
一份实用指南,解释Claude Code中的提示缓存工作原理,如何将Token成本降低90%,以及常见的破坏缓存的习惯,帮助开发者延长会话时长并降低成本。
OpenSquilla 推出了一款开源 AI 代理运行时,通过智能路由、缓存和四层记忆架构来降低 Token 成本,声称可节省 60-80% 的费用。