token-efficiency

#token-efficiency

GPT-5.5 或许消耗更少的 token，但它始终烧掉更多的钱

Reddit r/artificial ↗ · 8小时前缓存

尽管 OpenAI 声称 GPT-5.5 在 token 效率上有所提升，但实际使用成本仍比 GPT-5.4 高出 49% 至 92%；与此同时，Anthropic 的 Claude Opus 4.7 对于较长提示词的实际成本也上涨了 12% 至 27%。这一现象反映出前沿模型价格普遍上涨的趋势，而两家公司均面临巨额预计亏损。

0 人收藏 0 人点赞

#token-efficiency

从LLM代理视角测量网页信息密度 [R]

Reddit r/MachineLearning ↗ · 23小时前

本文介绍了从LLM代理视角对网页信息密度进行的实证测量，使用了涵盖五个类别的100个URL的精选基准。研究发现，结构化提取平均减少了71.5%的令牌数量，同时保持了答案质量，并揭示了Claude Code中一个未记录的压缩层。

0 人收藏 0 人点赞

#token-efficiency

提升GitHub Agentic Workflows中的Token效率（12分钟阅读）

TLDR AI ↗ · 昨天缓存

GitHub通过API代理记录Token使用并建立每日优化工作流，减少了未使用的MCP工具注册带来的开销，从而提升了其代理工作流的Token效率。

0 人收藏 0 人点赞

#token-efficiency

避免想太多与想太少：面向课程感知的LLM预算调度

arXiv cs.CL ↗ · 2026-04-23 缓存

BACR通过自适应token预算与课程感知调度，防止LLM在简单题上想太多、在难题上想太少，token用量降低34%，准确率最高提升8.3%。

0 人收藏 0 人点赞

#token-efficiency

MiMo-V2.5 & Pro

Product Hunt ↗ · 2026-04-22

MiMo-V2.5 & Pro 以前沿智能体能力登场，token 利用率再升级。

0 人收藏 0 人点赞

#token-efficiency

@AntLingAGI：发布 Ling-2.6-flash，104B 总参、7.4B 激活的稀疏指令模型

X AI KOLs Following ↗ · 2026-04-21 缓存

Ling-2.6-flash 是 104B 总参/7.4B 激活的稀疏指令模型，专为 token 效率优化，可在智能体任务中降低成本、提升吞吐。

0 人收藏 0 人点赞

#token-efficiency

一种基于观测上下文压缩的高效终端智能体自我演化框架

Hugging Face Daily Papers ↗ · 2026-04-21 缓存

TACO 提出了一种自我演化压缩框架，可自动学习压缩冗余的终端交互历史，在 TerminalBench 及其他代码智能体基准上将 token 开销降低约 10%，准确率提升 1–4%。

0 人收藏 0 人点赞

#token-efficiency

<p>通过自剪枝 MCP 记忆，Token 浪费减少 84%</p> <p> <a href="https://www.producthunt.com/products/yourmemory?utm_campaign=producthunt-atom-posts-feed&utm_medium=rss-feed&utm_source=producthunt-atom-posts-feed">讨论</a> | <a href="https://www.producthunt.com/r/p/1128311?app_id=339">链接</a> </p>

0 人收藏 0 人点赞

#token-efficiency

并非所有Token都同等重要：通过强化学习中的Token重要性实现高效LLM推理

arXiv cs.CL ↗ · 2026-04-20 缓存

本文提出了一个强化学习框架，通过建模Token重要性来选择性地对不重要的Token进行惩罚，同时保留关键推理步骤，采用重要性感知奖励和动态长度奖励来减少冗余，在不牺牲准确性的前提下提高效率。

0 人收藏 0 人点赞

#token-efficiency

@samhogan：顺便提一句，RLM 基本已解决上下文问题。你只需将上千万个 token 投入一个成熟的 RLM 框架中，它就能直接跑通……

X AI KOLs Following ↗ · 2026-04-18 缓存

一位开发者分享了使用 RLM 的实践经验，表示其能够有效承载高达数千万 token 的超长上下文窗口，这标志着上下文处理能力实现了显著跨越。

0 人收藏 0 人点赞

#token-efficiency

GenericAgent：一种通过上下文信息密度最大化实现高效自我演进的通用LLM智能体（V1.0）

Papers with Code Trending ↗ · 2026-04-18 缓存

本文介绍了 GenericAgent，这是一种旨在最大化上下文信息密度的自我演进式大语言模型智能体系统。它通过分层记忆、可复用的标准操作流程（SOP）以及高效压缩技术，解决了长周期任务的局限性，在与领先智能体的对比中，以更少的 Token 消耗实现了更优的性能表现。

0 人收藏 0 人点赞

#token-efficiency

API 中的提示词缓存

OpenAI Blog ↗ · 2024-10-01 缓存

OpenAI 推出提示词缓存功能，这是一项自动特性，通过在 GPT-4o、GPT-4o mini、o1-preview 和 o1-mini 模型上重用最近缓存的输入令牌，可将 API 成本降低 50% 并改善延迟。该功能会自动应用于超过 1,024 个令牌的提示词，无需开发者进行集成更改。

0 人收藏 0 人点赞

token-efficiency

GPT-5.5 或许消耗更少的 token，但它始终烧掉更多的钱

从LLM代理视角测量网页信息密度 [R]

提升GitHub Agentic Workflows中的Token效率（12分钟阅读）

避免想太多与想太少：面向课程感知的LLM预算调度

MiMo-V2.5 & Pro

@AntLingAGI：发布 Ling-2.6-flash，104B 总参、7.4B 激活的稀疏指令模型

一种基于观测上下文压缩的高效终端智能体自我演化框架

YourMemory

并非所有Token都同等重要：通过强化学习中的Token重要性实现高效LLM推理

@samhogan：顺便提一句，RLM 基本已解决上下文问题。你只需将上千万个 token 投入一个成熟的 RLM 框架中，它就能直接跑通……

GenericAgent：一种通过上下文信息密度最大化实现高效自我演进的通用LLM智能体（V1.0）

API 中的提示词缓存

提交意见反馈