标签
Wiola是一种新颖的小型语言模型(SLM)架构,引入了五个独立设计的组件——SRPE、GCLA、ATM、DSFF和WiolaRMSNorm——旨在提高效率和连贯性,发布了从1.2亿到15亿参数的多个规模,并与HuggingFace Transformers集成。
本文指出记忆保留是长上下文场景下循环记忆代理的瓶颈,并提出多头循环记忆(MHM),这是一种无需训练的框架,通过“先选择后更新”策略将记忆划分为独立的头。轻量级实例化版本 MHM-LRU 显著提升了 100K 至 1M token 范围内的记忆保留率和端到端准确率,在 896K token 的 RULER-HQA 上,将记忆保留率从低于 30% 提升至 73.96%。
本文从理论上刻画了变压器中KV缓存压缩的极小极大风险,为因果掩码下的精确压缩提供了设计原则,并将其实例化到实用算法中,在LongBench上取得了有前景的结果。
PartRep提出了一种针对仅解码器LLM的选择性提示重复方法,仅追加最有信息量的令牌(通过NLL选择),而非完整提示,从而减少KV缓存和预填充FLOPs,同时在多个基准测试上保留大部分准确率提升。
介绍 MultAttnAttrib,一种用于长文档问答中多模态归因的免训练方法,以及 MultAttrEval 基准测试。它优于基于提示的方法,并与 GPT-5.4 等前沿模型相当。
探讨了未经用户同意的情况下,AI生成的个性化内容充斥社交媒体动态的可能性,引发了对操控和注意力经济的担忧。
一篇详细阐述LLM推理关键概念的推文:注意力机制、KV缓存、分块预填充以及批处理技术,包括vLLM和SGLang中使用的连续批处理。
NVIDIA的博客详细介绍了FP4(配合NVFP4格式和Blackwell硬件)如何从一种压缩技巧演变为训练和推理的实用基础方案,涵盖LLM和扩散模型,并实现了接近16位的精度。
本文提出FADE,一种无需训练的方法,通过削弱关键层的FFN输出来减少语言先验主导性,从而缓解大型视觉语言模型中的幻觉,并在多个基准测试中证明了有效性。
本文提出了一种AI世界模型中预测的路径空间形式化方法,将未来轨迹的分布视为基本预测对象。研究表明,预测、规划和不确定性表现为对单一作用泛函的操作,并证明学习模型中的注意力不对称性与数据中的不可逆性相关。
本文研究了内存管理的长上下文注意力,这是一个将高效状态压缩与显式可编辑内存槽分开的研究方向。实验表明,结合快速循环/稀疏主干网络与显式内存管理的混合方法,在合成任务和长上下文基准测试中均优于纯固定状态或纯稀疏方法。
介绍LPES,一种层特定位置嵌入缩放方法,通过使用贝塞尔曲线的遗传算法为每层分配不同的缩放因子,缓解LLM中的“中间丢失”问题,无需微调或增加延迟即可实现高达11.2%的准确率提升。
该论文识别了语言模型在策略蒸馏中的位置偏差,即学生模型生成的答案中后面的token接收到的监督质量下降。所提出的重要性加权在策略蒸馏(IW-OPD)根据累积漂移对修正进行加权,提高了学习速度和最终性能。
该论文引入了Grouped Query Experts,通过在分组查询注意力基础上将每个token路由到少数几个查询头专家,改进了长上下文注意力,在匹配准确率的同时实现了1.7-1.8倍的预填充速度提升。
MathFormer 是一个小型 seq2seq 模型,在符号数学任务上实现了约 98.6% 的准确率,这表明 LLM 中的数学推理可能是一种大规模的结构化模式补全,而非真正的推理。
本文分析了使用Olmo 3和Olmo Hybrid的Transformer与混合注意力-循环模型在词元级别上的预测差异,发现混合模型在语义状态追踪方面有所改进,而Transformer在n元组复制和语法括号匹配方面表现出色。
解释了为什么在vLLM上部署推理模型时,驱逐90%的KV缓存token无法释放GPU内存,原因是分页注意力碎片化。同时介绍了NVIDIA的TriAttention解决方案,可实现2.5倍加速和10.7倍内存缩减。
文章探讨了人类认知的局限性——例如工作记忆只能同时处理大约四个项目——以及这些限制如何塑造软件工程,并论证了许多“人为错误”实际上是设计缺陷。
本文介绍了EpiKV,一种基于内部表征变化(顿悟分数)而非注意力权重来评估token重要性的KV缓存淘汰方法,无需具体化注意力矩阵。该方法在推理基准测试中取得了具有竞争力的性能,同时支持长达16倍的上下文长度。