latency-optimization

#latency-optimization

ObjectCache: 用于KV缓存重用的分层对象存储检索

arXiv cs.AI ↗ · 2026-05-25 缓存

ObjectCache提出使用S3兼容的对象存储来实现LLM KV缓存的重用，以降低成本并增加容量，同时通过协同设计的存储协议和传输调度将延迟开销降至最低。实验表明，对于64K上下文，相比本地DRAM仅增加5.6%的延迟。

0 人收藏 0 人点赞

#latency-optimization

Hugging Face Daily Papers ↗ · 2026-05-20 缓存

本文介绍了针对代理型计划-执行流水线的时序语义缓存与MCP工作流优化，在缓存命中时实现了高达30.6倍的加速，并在AssetOpsBench工业基准测试上实现了1.67倍的整体加速。

0 人收藏 0 人点赞

#latency-optimization

Reddit r/MachineLearning ↗ · 2026-05-15

一篇博客文章，详细介绍了如何检测 Snapdragon 在 CI 中的静默 NPU 回退，包括在真实硬件上运行、基于变异系数的门控以及解析 ORT 性能分析 JSON 以识别回退操作等方法。

0 人收藏 0 人点赞

#latency-optimization

arXiv cs.CL ↗ · 2026-05-11 缓存

本文介绍了 BoundaryRouter，这是一个无需训练的框架，通过根据早期经验将查询路由至轻量级推理或完整智能体执行来优化大型语言模型（LLM）智能体的使用。此外，本文还提出了 RouteBench，这是一个用于评估路由性能的基准，显示出在速度和准确率方面的显著提升。

0 人收藏 0 人点赞