transformer-inference

#transformer-inference

DepthWeave-KV：用于长上下文KV缓存压缩的令牌自适应跨层残差分解方法

arXiv cs.AI ↗ · 2026-07-08 缓存

DepthWeave-KV 是一种令牌自适应跨层残差分解方法，用于在长上下文Transformer推理中压缩KV缓存。该方法在64K上下文下实现8.3倍内存缩减和72.8令牌/秒的吞吐量，同时在各项基准测试中保持了接近完整缓存的任务质量。

0 人收藏 0 人点赞

#transformer-inference

X AI KOLs Timeline ↗ · 2026-07-06 缓存

研究人员提出了可编程KV缓存（Programmable KV Cache），这是一种用于编辑和组合KV缓存的方法，旨在避免LLM智能体推理过程中重新预填充长上下文，在保持决策一致性的同时，将p90首令牌时间减少了53至398倍。

0 人收藏 0 人点赞

#transformer-inference

X AI KOLs Timeline ↗ · 2026-06-30 缓存

Etched 高调亮相，宣布推出专门为 Transformer 推理设计的 AI 芯片和整套推理集群，已获得超过 10 亿美元客户合同和 8 亿美元融资，首台机柜将于今年夏天发货。

0 人收藏 0 人点赞

#transformer-inference

X AI KOLs Timeline ↗ · 2026-06-13 缓存

一款逐门定制的数字芯片，在仅80 MHz频率下运行含KV缓存的Transformer，实现每秒超过56,000 tokens，并在FPGA上完成原型验证。

0 人收藏 0 人点赞

#transformer-inference

X AI KOLs Following ↗ · 2026-06-10 缓存

本文全面介绍了云端部署 Transformer 推理的完整技术栈，涵盖应用场景、工作负载定义、模型、推理引擎、硬件、可观测性及性能优化，并展望了未来趋势。

0 人收藏 0 人点赞