标签
作者绘制了Qwen3.6-35B-A3B和Gemma4-E2B QAT模型的KV缓存量化的KL散度图。
一位中国开发者发布了一个70B参数的大语言模型,该模型通过扁平内存和逐层加载,能够在极低硬件(4GB GPU)上本地运行,可能替代昂贵的订阅服务。
PerceptionDLM 提出了一种多模态扩散语言模型,通过结构化注意力掩码和高效提示实现并行区域感知,在不牺牲字幕质量的情况下实现更快的推理。实验表明,在多区域感知任务中,性能具有竞争力且速度大幅提升。
ImageWAM 提出在世界动作模型中用预训练图像编辑模型替代视频生成用于机器人控制,在将计算量降至视频方法的 1/6、延迟降至 1/4 的同时实现了更优性能。
GLM 5.2 作为一款753B参数的开源模型发布,拥有1M上下文长度,MIT许可证,在AIME 2026上达到99.2分,超越了GPT-5.5、Gemini 3.1 Pro和Claude Opus 4.8。
本文介绍了强制延迟攻击(FDA),一种对抗性图像攻击,通过操纵多模态LLM级联中的置信度分数,导致查询不必要地路由到更强(更昂贵)的模型,从而在不降低答案正确性的情况下将计算成本转移给提供商。
本文提出了llada.cpp,一种NPU感知推理框架,用于在智能手机上加速扩散大语言模型(dLLM)。它引入了三种技术——Multi-Block Speculative Decoding、Dual-Path Progressive Revision和Swap-Optimized Memory Runtime——以使dLLM推理与移动NPU特性对齐,实现了相比CPU基线17-42倍的延迟降低。
本文介绍SP³,一种使用球面编码器先验的即插即用图像恢复方法,在各项任务中实现与零样本扩散先验相当的感知质量,同时速度快3-630倍。
一条推文指出,经过 abliterated 处理、NVFP4 量化的 Gemma-4-12B 模型(7.7 GB)在实际任务中能够与 Qwen 3.6-35B 相媲美,同时在 Blackwell GPU 上运行快速,展现了显著的效率提升。
MiniMax M3是一款428B参数的MoE模型,活跃参数约23B,现已开源。它支持超长上下文(最高达1M)并提升了效率,提供了多种量化尺寸以及本地部署所需的VRAM要求。
Nemotron 3 Ultra 是一个550B参数的混合Mamba-Attention专家混合语言模型,在20T tokens上预训练,扩展至1M上下文,并通过SFT、RL和MOPD进行后训练。相比同等精度的一流LLM,其推理吞吐量最高可提升6倍,并已开源。
本文提出了一种自适应视频令牌化方法,利用潜在空间中的时间冗余动态分配令牌,实现高效压缩,无需辅助网络。所提出的潜在修补变压器(Latent Inpainting Transformer)重建被丢弃的位置,相比ElasticTok-CV实现31倍加速,相比InfoTok实现2倍加速。
本文提出CRUMB,一种三阶段推理封装方法,通过聚类测试查询并利用最小化最大均值差异(MMD)选择分布匹配的训练子集,从而实现对大规模数据集的高效先验拟合网络推理。在51个TabArena数据集上,该方法在上下文选择方面达到了最先进水平。
HiLo-Token 提出了一种面向扩散变换器的输入自适应令牌压缩框架,为高频区域分配更多令牌,在图像编辑任务中实现高达 3.13 倍的加速且无质量损失。
IntentKV提出了一种针对多轮LLM Agent的跨轮次意图感知KV缓存剪枝方法,通过维护会话级别的查询记忆来高效剪枝缓存,且不损失精度,显著减少了token使用量和KV读取次数。
本文形式化了LLM维基的流式知识编译,引入了一个重要性信号,用于在token预算下从流式语料库中主动固定重要文档。它证明了O(√(T log K))的遗憾界,并在金融和维基百科领域验证了该方法,表明遗憾分析是一种可靠的评估指标。
介绍了FlashMemory DeepSeek-V4检索器,这是一个轻量级模型,通过预测接下来将关注哪些块来稀疏化DeepSeek-V4的CSA KV缓存,仅保留约10-15%在设备上,同时匹配全注意力性能。
ScaleSweep提出了一种针对LLM的NVFP4训练后量化的新型块缩放初始化方法,通过遍历可行的块缩放候选值来提高精度。在Llama和Qwen模型上的实验表明,在激进量化下,该方法保留了超过93%的全精度性能。
提出一种用于流式ASR标点恢复的非自回归评分方法,该方法保留输入转录,并在有限前瞻预算下优于基于提示和微调的基线。
本文介绍了Qift,一种固定的无零点两位权重量化层级集,专为Hadamard旋转的大语言模型设计,通过利用旋转权重的近零中心高斯类分布,实现了改进的W2A4/KV4推理。在LLaMA-2-7B和LLaMA-3.1-8B上的实验显示,相比于标准W2量化,困惑度持续提升。