efficient-inference

#efficient-inference

Qift: 移位友好的无零点W2训练后量化，用于旋转W2A4/KV4大语言模型推理

arXiv cs.LG ↗ · 2026-06-03 缓存

本文介绍了Qift，一种固定的无零点两位权重量化层级集，专为Hadamard旋转的大语言模型设计，通过利用旋转权重的近零中心高斯类分布，实现了改进的W2A4/KV4推理。在LLaMA-2-7B和LLaMA-3.1-8B上的实验显示，相比于标准W2量化，困惑度持续提升。

0 人收藏 0 人点赞

#efficient-inference

Video2LoRA: 视觉-语言模型的参数化视频内化

Hugging Face Daily Papers ↗ · 2026-06-03 缓存

本文介绍Video2LoRA，一种直接从视频表示预测低秩适配（LoRA）权重的方法，能够在冻结的视觉-语言模型中实现高效的视频处理。它将视觉令牌负载降低最多1500倍，查询TTFT降低6-80倍，同时在视频摘要和字幕生成基准上保持性能。

0 人收藏 0 人点赞

#efficient-inference

EPIC: 在上下文无关文法约束下的扩散语言模型高效并行推理

arXiv cs.CL ↗ · 2026-06-02 缓存

本文介绍了EPIC，一个用于扩散语言模型中上下文无关文法约束解码的高效框架，在保持语法正确性的同时，将推理时间最多减少67.5%。

0 人收藏 0 人点赞

#efficient-inference

dMoE: 具有可学习块专家的扩散大语言模型

arXiv cs.CL ↗ · 2026-06-01 缓存

dMoE 提出了用于扩散大语言模型的块级专家路由，将唯一激活的专家数量从 69.5 降至 14.6，同时保留了 99.11% 的性能，并实现了 76-80% 的内存减少和 1.14-1.66 倍的加速。

0 人收藏 0 人点赞

#efficient-inference

具备潜在推理能力的鲁棒高效护栏

arXiv cs.AI ↗ · 2026-05-29 缓存

CoLaGuard 是一种新型护栏模型，它将多步安全推理转移到连续潜在空间中，与显式推理基线相比，实现了 12.9 倍的加速和 22.4 倍的 Token 缩减，同时在十个安全基准上匹配宏 F1 性能。

0 人收藏 0 人点赞

#efficient-inference

PARCEL: 基于池锚重采样与条件弹性查询的高效视觉语言理解

Hugging Face Daily Papers ↗ · 2026-05-28 缓存

PARCEL提出了一种新颖的视觉语言模型架构，利用池锚重采样和条件弹性查询来提高不同视觉令牌预算下的效率和性能，优于现有的matryoshka基线。

0 人收藏 0 人点赞

#efficient-inference

利用测试时训练线性化视觉Transformer

Hugging Face Daily Papers ↗ · 2026-05-28 缓存

本文提出了一种方法，将预训练的Softmax注意力模型转换为线性复杂度的测试时训练（TTT）架构，在显著加速推理的同时，实现了与微调Softmax模型相当的文生图质量。该方法通过对Stable Diffusion 3.5进行线性化得到SD3.5-T^5，在1K分辨率下实现1.32倍加速。

0 人收藏 0 人点赞

#efficient-inference

VideoMLA：用于分钟级自回归视频扩散的低秩潜变量KV缓存

Hugging Face Daily Papers ↗ · 2026-05-28 缓存

VideoMLA 用共享的低秩潜变量和解耦的 3D-RoPE 位置键替换了视频扩散模型中每个头的 KV 缓存，在 B200 上将每个 token 的 KV 内存降低了 92.7%，吞吐量提升了 1.23 倍，同时在 VBench 基准测试中保持了质量。

0 人收藏 0 人点赞

#efficient-inference

Fast-dDrive: 用于自动驾驶的高效块扩散VLM

arXiv cs.CL ↗ · 2026-05-25 缓存

Fast-dDrive是一种用于端到端自动驾驶的块扩散VLA模型，实现了最先进的轨迹精度，同时相比自回归基线提供了超过12倍的吞吐量加速，解决了高保真规划与边缘部署高效推理之间的权衡。

0 人收藏 0 人点赞

#efficient-inference

我构建了一个Mamba1变体，称为SM1，d_state=1，在Blackwell上纯PyTorch运行[P]

Reddit r/MachineLearning ↗ · 2026-05-23

作者提出了SM1，一个Mamba1的变体，d_state=1，使用两个原生PyTorch操作替代选择性扫描，与d_state=16相比内存减少16倍。闭式解消除了状态维度，实现了每个token恒定内存的高效推理。

0 人收藏 0 人点赞

#efficient-inference

PulseCol：周期性刷新的列稀疏注意力机制，用于加速扩散语言模型

arXiv cs.CL ↗ · 2026-05-21 缓存

PulseCol 提出了一种周期性刷新的列稀疏注意力方法，适用于扩散语言模型。该方法在保持模型质量的同时，实现了更高的稀疏度，并且相比 FlashAttention 获得了高达 1.95 倍的端到端加速。

0 人收藏 0 人点赞

#efficient-inference

Quant.npu：通过全静态量化实现端侧大语言模型的高效移动NPU推理

arXiv cs.LG ↗ · 2026-05-21 缓存

Quant.npu 提出了一种面向移动 NPU 的全静态量化框架，利用可学习参数和旋转矩阵，无需运行时重新计算即可实现高效的低比特大语言模型推理，延迟最高降低 15.1%。

0 人收藏 0 人点赞

#efficient-inference

即插即用脉冲算子：突破脉冲Transformer中的非线性瓶颈

arXiv cs.LG ↗ · 2026-05-21 缓存

本文提出一种即插即用框架，通过LIF神经元的种群计算和轻量级位移缩放，实现Transformer非线性（如Softmax、SiLU、归一化）的脉冲友好近似，在无需微调的LLMs上准确率下降不到1%。

0 人收藏 0 人点赞

#efficient-inference

多令牌残差预测

arXiv cs.LG ↗ · 2026-05-20

引入多令牌残差预测（MRP），这是一个用于扩散语言模型的轻量级模块，能够在单次主干前向传播中实现依赖感知的多令牌去噪，实现高达1.42倍的无损加速。

0 人收藏 0 人点赞

#efficient-inference

D-PACE: 面向并行推测草稿的动态位置感知交叉熵

arXiv cs.LG ↗ · 2026-05-20 缓存

本文介绍了D-PACE，一种用于训练推测解码草稿模型的动态位置感知交叉熵损失，该损失函数自适应地加权位置以提升接受长度和推理速度，在各基准测试中实现一致的加速比，且开销极低。

0 人收藏 0 人点赞

#efficient-inference

OlmoEarth v1.1：更高效的模型系列

Hugging Face Blog ↗ · 2026-05-19 缓存

OlmoEarth v1.1 是 Allen AI 推出的一系列新型卫星图像分析模型，通过减少基于 Transformer 的模型中的令牌序列长度，在保持性能的同时将计算成本降低高达 3 倍。

0 人收藏 0 人点赞

#efficient-inference

ProxyKV: 跨模型代理剪枝实现高效长上下文LLM推理

arXiv cs.LG ↗ · 2026-05-19 缓存

ProxyKV是一种跨模型代理剪枝框架，将重要性评分卸载到轻量级小模型上，以更低的预填充开销实现高精度KV缓存剪枝，在Llama-3.1、Qwen-2.5和Qwen-3系列上匹配KVZip的准确率。

0 人收藏 0 人点赞

#efficient-inference

全注意力回归：在百步训练内将全注意力转化为稀疏注意力

arXiv cs.CL ↗ · 2026-05-19 缓存

RTPurbo 仅需数百步训练即可将全注意力大语言模型转化为稀疏模型，实现接近无损的准确率，并在预填充阶段最高提速 9.36 倍，解码阶段最高提速 2.01 倍。

0 人收藏 0 人点赞

#efficient-inference

TTE-Flash：通过先思后嵌入令牌加速基于推理的多模态表示

arXiv cs.AI ↗ · 2026-05-19 缓存

论文介绍了TTE-Flash，一种用潜在思考令牌替换显式思维链推理的方法，以恒定推理成本生成推理感知的多模态表示，在MMEB-v2基准测试上优于显式CoT基线。

0 人收藏 0 人点赞

#efficient-inference

TIDE：基于I/O感知专家卸载的高效无损MoE扩散LLM推理

Hugging Face Daily Papers ↗ · 2026-05-19 缓存

TIDE 是一种用于扩散大型语言模型的无损推理系统，它利用专家激活的时间稳定性来减少 I/O 开销和计算，在单 GPU-CPU 系统上实现高达 1.4-1.5 倍的吞吐量提升。

0 人收藏 0 人点赞

efficient-inference

提交意见反馈