efficient-inference

标签

#efficient-inference

我绘制了Qwen3.6-35B-A3B和Gemma4-E2B QAT模型的KV缓存量化的KL散度图

Reddit r/LocalLLaMA ↗ · 17小时前

作者绘制了Qwen3.6-35B-A3B和Gemma4-E2B QAT模型的KV缓存量化的KL散度图。

0 人收藏 0 人点赞

#efficient-inference

@onchainmilady: ANTHROPIC试图封禁他的GITHUB 中国开发者发布70B参数大语言模型，在Github上获得2万颗星，并面临大型AI公司的诉讼

X AI KOLs Timeline ↗ · 4天前缓存

一位中国开发者发布了一个70B参数的大语言模型，该模型通过扁平内存和逐层加载，能够在极低硬件（4GB GPU）上本地运行，可能替代昂贵的订阅服务。

0 人收藏 0 人点赞

#efficient-inference

PerceptionDLM: 基于多模态扩散语言模型的并行区域感知

Hugging Face Daily Papers ↗ · 2026-06-17 缓存

PerceptionDLM 提出了一种多模态扩散语言模型，通过结构化注意力掩码和高效提示实现并行区域感知，在不牺牲字幕质量的情况下实现更快的推理。实验表明，在多区域感知任务中，性能具有竞争力且速度大幅提升。

0 人收藏 0 人点赞

#efficient-inference

ImageWAM：世界动作模型真的需要视频生成，还是只需要图像编辑？

Hugging Face Daily Papers ↗ · 2026-06-17 缓存

ImageWAM 提出在世界动作模型中用预训练图像编辑模型替代视频生成用于机器人控制，在将计算量降至视频方法的 1/6、延迟降至 1/4 的同时实现了更优性能。

0 人收藏 0 人点赞

#efficient-inference

@AdinaYakup: GLM 5.2 来了 753B (比你想象的要小？) 1M上下文 MIT许可证 GLM IndexShare: 跨层复用索引器…

X AI KOLs Following ↗ · 2026-06-16 缓存

GLM 5.2 作为一款753B参数的开源模型发布，拥有1M上下文长度，MIT许可证，在AIME 2026上达到99.2分，超越了GPT-5.5、Gemini 3.1 Pro和Claude Opus 4.8。

0 人收藏 0 人点赞

#efficient-inference

强制延迟：在多模态LLM级联中操纵路由决策

arXiv cs.AI ↗ · 2026-06-16 缓存

本文介绍了强制延迟攻击（FDA），一种对抗性图像攻击，通过操纵多模态LLM级联中的置信度分数，导致查询不必要地路由到更强（更昂贵）的模型，从而在不降低答案正确性的情况下将计算成本转移给提供商。

0 人收藏 0 人点赞

#efficient-inference

利用移动NPU的高效端侧扩散大语言模型推理

arXiv cs.LG ↗ · 2026-06-15 缓存

本文提出了llada.cpp，一种NPU感知推理框架，用于在智能手机上加速扩散大语言模型（dLLM）。它引入了三种技术——Multi-Block Speculative Decoding、Dual-Path Progressive Revision和Swap-Optimized Memory Runtime——以使dLLM推理与移动NPU特性对齐，实现了相比CPU基线17-42倍的延迟降低。

0 人收藏 0 人点赞

#efficient-inference

SP^3: 用于即插即用恢复的球面先验

Hugging Face Daily Papers ↗ · 2026-06-15 缓存

本文介绍SP³，一种使用球面编码器先验的即插即用图像恢复方法，在各项任务中实现与零样本扩散先验相当的感知质量，同时速度快3-630倍。

0 人收藏 0 人点赞

#efficient-inference

@Tono_Ken3: 我注意到可能有另一个人也意识到，在实际工作中 gemma-4-12b 能够与 qwen3.6-35b 相媲美。是的……

X AI KOLs Timeline ↗ · 2026-06-14 缓存

一条推文指出，经过 abliterated 处理、NVFP4 量化的 Gemma-4-12B 模型（7.7 GB）在实际任务中能够与 Qwen 3.6-35B 相媲美，同时在 Blackwell GPU 上运行快速，展现了显著的效率提升。

0 人收藏 0 人点赞

#efficient-inference

@TeksEdge: 随着MiniMax M3开源发布，以下是关于量化版本和模型大小的预期，包括所需VRAM：MiniMax M3 (428…

X AI KOLs Following ↗ · 2026-06-12 缓存

MiniMax M3是一款428B参数的MoE模型，活跃参数约23B，现已开源。它支持超长上下文（最高达1M）并提升了效率，提供了多种量化尺寸以及本地部署所需的VRAM要求。

0 人收藏 0 人点赞

#efficient-inference

Nemotron 3 Ultra：用于智能体推理的高效开源混合专家Mamba-Transformer模型

Hugging Face Daily Papers ↗ · 2026-06-12 缓存

Nemotron 3 Ultra 是一个550B参数的混合Mamba-Attention专家混合语言模型，在20T tokens上预训练，扩展至1M上下文，并通过SFT、RL和MOPD进行后训练。相比同等精度的一流LLM，其推理吞吐量最高可提升6倍，并已开源。

0 人收藏 0 人点赞

#efficient-inference

基于时间冗余掩蔽和潜在修补的自适应令牌化 [R]

Reddit r/MachineLearning ↗ · 2026-06-11

本文提出了一种自适应视频令牌化方法，利用潜在空间中的时间冗余动态分配令牌，实现高效压缩，无需辅助网络。所提出的潜在修补变压器（Latent Inpainting Transformer）重建被丢弃的位置，相比ElasticTok-CV实现31倍加速，相比InfoTok实现2倍加速。

0 人收藏 0 人点赞

#efficient-inference

CRUMB：基于分布匹配上下文批处理的高效先验拟合网络推理

arXiv cs.LG ↗ · 2026-06-11 缓存

本文提出CRUMB，一种三阶段推理封装方法，通过聚类测试查询并利用最小化最大均值差异（MMD）选择分布匹配的训练子集，从而实现对大规模数据集的高效先验拟合网络推理。在51个TabArena数据集上，该方法在上下文选择方面达到了最先进水平。

0 人收藏 0 人点赞

#efficient-inference

HiLo-Token: 输入自适应高低频令牌压缩实现高效图像编辑

Hugging Face Daily Papers ↗ · 2026-06-11 缓存

HiLo-Token 提出了一种面向扩散变换器的输入自适应令牌压缩框架，为高频区域分配更多令牌，在图像编辑任务中实现高达 3.13 倍的加速且无质量损失。

0 人收藏 0 人点赞

#efficient-inference

IntentKV: 面向Agent推理的跨轮次意图感知KV缓存剪枝

arXiv cs.LG ↗ · 2026-06-10 缓存

IntentKV提出了一种针对多轮LLM Agent的跨轮次意图感知KV缓存剪枝方法，通过维护会话级别的查询记忆来高效剪枝缓存，且不损失精度，显著减少了token使用量和KV读取次数。

0 人收藏 0 人点赞

#efficient-inference

流式知识编译：面向时变LLM维基的主动重要性评分固定

arXiv cs.LG ↗ · 2026-06-10 缓存

本文形式化了LLM维基的流式知识编译，引入了一个重要性信号，用于在token预算下从流式语料库中主动固定重要文档。它证明了O(√(T log K))的遗憾界，并在金融和维基百科领域验证了该方法，表明遗憾分析是一种可靠的评估指标。

0 人收藏 0 人点赞

#efficient-inference

FlashMemory DeepSeek-V4 检索器（GitHub仓库）

TLDR AI ↗ · 2026-06-10 缓存

介绍了FlashMemory DeepSeek-V4检索器，这是一个轻量级模型，通过预测接下来将关注哪些块来稀疏化DeepSeek-V4的CSA KV缓存，仅保留约10-15%在设备上，同时匹配全注意力性能。

0 人收藏 0 人点赞

#efficient-inference

ScaleSweep：通过块缩放初始化实现LLM的NVFP4训练后量化精度提升

arXiv cs.LG ↗ · 2026-06-09 缓存

ScaleSweep提出了一种针对LLM的NVFP4训练后量化的新型块缩放初始化方法，通过遍历可行的块缩放候选值来提高精度。在Llama和Qwen模型上的实验表明，在激进量化下，该方法保留了超过93%的全精度性能。

0 人收藏 0 人点赞

#efficient-inference

基于加权前瞻评分方法的流式ASR系统高效标点恢复

arXiv cs.CL ↗ · 2026-06-05 缓存

提出一种用于流式ASR标点恢复的非自回归评分方法，该方法保留输入转录，并在有限前瞻预算下优于基于提示和微调的基线。

0 人收藏 0 人点赞

#efficient-inference

Qift: 移位友好的无零点W2训练后量化，用于旋转W2A4/KV4大语言模型推理

arXiv cs.LG ↗ · 2026-06-03 缓存

本文介绍了Qift，一种固定的无零点两位权重量化层级集，专为Hadamard旋转的大语言模型设计，通过利用旋转权重的近零中心高斯类分布，实现了改进的W2A4/KV4推理。在LLaMA-2-7B和LLaMA-3.1-8B上的实验显示，相比于标准W2量化，困惑度持续提升。

0 人收藏 0 人点赞

← 返回首页

提交意见反馈