latency-acceleration

标签

Cards List
#latency-acceleration

SpecHop: 连续推测加速多跳检索代理

arXiv cs.CL · 2026-05-22 缓存

SpecHop 是一个连续推测框架,通过维护多个推测线程并异步验证预测,加速多跳检索代理,在保持最终模型输出不变的情况下,延迟降低高达40%。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈