token-reduction

#token-reduction

可微分高效算子搜索

arXiv cs.LG ↗ · 4天前缓存

介绍了高效算子搜索（EOS），这是一个统一的可微分框架，将令牌缩减方法（剪枝、合并、池化、自适应重加权）泛化到共享算子空间，在预算约束下自动搜索最优算子组合。该方法在多个基准上取得有竞争力的结果，并揭示了一致的算子模式。

0 人收藏 0 人点赞

#token-reduction

我构建了一个将Python重写为面向模型表示的编译器

Reddit r/LocalLLaMA ↗ · 6天前缓存

Vulpine是一个编译器，它将人类可读的Python代码转换为针对LLM优化的压缩宏表示，平均减少13.8%的token数，同时支持精确的结构重建。

0 人收藏 0 人点赞

#token-reduction

AQuaUI：基于自适应四叉树的GUI代理视觉令牌减少方法

arXiv cs.AI ↗ · 2026-05-20 缓存

AQuaUI是一种无需训练、推理时即用的GUI代理模型令牌减少方法，利用自适应四叉树降低截图中的空间冗余，实现了高达13.22%的加速和29.52%的视觉令牌减少，同时保留了99.06%的性能。

0 人收藏 0 人点赞

#token-reduction

当推理收敛时停止：保留语义的推理模型提前退出

Hugging Face Daily Papers ↗ · 2026-05-17 缓存

本文介绍 PUMA，一个即插即用框架，通过检测思维链推理中的语义冗余实现提前退出，在多个模型和基准测试中平均减少 26.2% 的 Token，同时保持准确性和推理质量。

0 人收藏 0 人点赞

#token-reduction

立即就绪：LOOP技能引擎通过一次性记录和确定性回放实现99%成功率并削减99%代币用量

arXiv cs.AI ↗ · 2026-05-15 缓存

LOOP技能引擎通过记录单次LLM驱动的执行，并通过参数化无分支技能进行确定性回放，实现了周期性AI代理任务99%的成功率和99%的代币削减，消除了随机性失效和高昂成本。

0 人收藏 0 人点赞

#token-reduction

@berryxia: Agent 记忆真是太特么卷了啊！不得不说，这个赛道越多人加入越爽啊！ Tencent AI团队花了整整6个月，就死磕一个问题：AI agent长会话里疯狂丢上下文。他们最后把一套记忆系统做完，直接开源了。我看完他们的分享，最大的感…

X AI KOLs Timeline ↗ · 2026-05-14 缓存

腾讯AI团队开源了Agent记忆系统，通过实时上下文压缩、Mermaid任务地图和Persona记忆三种方法，显著提升长对话中的token效率和agent一致性，token消耗降低61%，人格一致性从48%提升至76%。

0 人收藏 0 人点赞

#token-reduction

提示微调：数据越少，推理能力越强

arXiv cs.CL ↗ · 2026-05-12 缓存

本文提出了一种名为“提示微调”（Hint Tuning）的数据高效方法，该方法根据问题难度校准推理深度，从而减少推理模型中的标记使用量。在仅需1K个自标注样本的情况下，该方法在 Qwen3-Thinking 和 DeepSeek-R1-Distill 等模型上实现了显著的标记减少（24%-66%）。

0 人收藏 0 人点赞

#token-reduction

学习自适应推理路径以实现高效视觉推理

Hugging Face Daily Papers ↗ · 2026-04-16 缓存

AVR是一种自适应视觉推理框架，能够动态选择最优推理格式，在视觉推理任务中减少50-90%的token使用量同时保持准确性。该方法通过将视觉推理分解为三种认知功能并使用FS-GRPO训练来鼓励高效格式选择，从而解决推理路径冗余问题。

0 人收藏 0 人点赞

#token-reduction

rtk-ai/rtk

GitHub Trending (daily) ↗ · 2026-05-19 缓存

RTK 是一个高性能的 CLI 代理，可在命令输出到达 LLM 上下文之前对其进行过滤和压缩，从而将 token 消耗减少 60-90%，且开销极低。

0 人收藏 0 人点赞

token-reduction

提交意见反馈