inference-time-control

#inference-time-control

每个Token抛硬币：大型语言模型的伯努利稀疏引导

arXiv cs.LG ↗ · 21小时前缓存

介绍了针对LLM激活引导的随机Token引导（STS）和随机块引导（SBS），它们以概率方式按token或按序列控制引导信号。实验表明，仅引导50%的token即可恢复大部分密集引导效果，同时保持流畅性，并且行为结果受累积信号剂量的速率限制。

0 人收藏 0 人点赞

#inference-time-control

arXiv cs.AI ↗ · 2026-05-08 缓存

本文提出了一种用于大语言模型（LLM）搜索代理的两阶段推理时预算控制方法，利用信息价值（VOI）分数在多跳问答过程中优化工具调用和 Token 分配。

0 人收藏 0 人点赞