标签
介绍了高效算子搜索(EOS),这是一个统一的可微分框架,将令牌缩减方法(剪枝、合并、池化、自适应重加权)泛化到共享算子空间,在预算约束下自动搜索最优算子组合。该方法在多个基准上取得有竞争力的结果,并揭示了一致的算子模式。
Vulpine是一个编译器,它将人类可读的Python代码转换为针对LLM优化的压缩宏表示,平均减少13.8%的token数,同时支持精确的结构重建。
AQuaUI是一种无需训练、推理时即用的GUI代理模型令牌减少方法,利用自适应四叉树降低截图中的空间冗余,实现了高达13.22%的加速和29.52%的视觉令牌减少,同时保留了99.06%的性能。
本文介绍 PUMA,一个即插即用框架,通过检测思维链推理中的语义冗余实现提前退出,在多个模型和基准测试中平均减少 26.2% 的 Token,同时保持准确性和推理质量。
LOOP技能引擎通过记录单次LLM驱动的执行,并通过参数化无分支技能进行确定性回放,实现了周期性AI代理任务99%的成功率和99%的代币削减,消除了随机性失效和高昂成本。
腾讯AI团队开源了Agent记忆系统,通过实时上下文压缩、Mermaid任务地图和Persona记忆三种方法,显著提升长对话中的token效率和agent一致性,token消耗降低61%,人格一致性从48%提升至76%。
本文提出了一种名为“提示微调”(Hint Tuning)的数据高效方法,该方法根据问题难度校准推理深度,从而减少推理模型中的标记使用量。在仅需1K个自标注样本的情况下,该方法在 Qwen3-Thinking 和 DeepSeek-R1-Distill 等模型上实现了显著的标记减少(24%-66%)。
AVR是一种自适应视觉推理框架,能够动态选择最优推理格式,在视觉推理任务中减少50-90%的token使用量同时保持准确性。该方法通过将视觉推理分解为三种认知功能并使用FS-GRPO训练来鼓励高效格式选择,从而解决推理路径冗余问题。
RTK 是一个高性能的 CLI 代理,可在命令输出到达 LLM 上下文之前对其进行过滤和压缩,从而将 token 消耗减少 60-90%,且开销极低。