attention

标签

Cards List
#attention

高效小型语言模型的Wiola架构

arXiv cs.AI · 2天前 缓存

Wiola是一种新颖的小型语言模型(SLM)架构,引入了五个独立设计的组件——SRPE、GCLA、ATM、DSFF和WiolaRMSNorm——旨在提高效率和连贯性,发布了从1.2亿到15亿参数的多个规模,并与HuggingFace Transformers集成。

0 人收藏 0 人点赞
#attention

多头循环记忆代理

arXiv cs.LG · 2天前 缓存

本文指出记忆保留是长上下文场景下循环记忆代理的瓶颈,并提出多头循环记忆(MHM),这是一种无需训练的框架,通过“先选择后更新”策略将记忆划分为独立的头。轻量级实例化版本 MHM-LRU 显著提升了 100K 至 1M token 范围内的记忆保留率和端到端准确率,在 896K token 的 RULER-HQA 上,将记忆保留率从低于 30% 提升至 73.96%。

0 人收藏 0 人点赞
#attention

KV缓存压缩的风险

arXiv cs.LG · 2天前 缓存

本文从理论上刻画了变压器中KV缓存压缩的极小极大风险,为因果掩码下的精确压缩提供了设计原则,并将其实例化到实用算法中,在LongBench上取得了有前景的结果。

0 人收藏 0 人点赞
#attention

PARTREP:学习在仅解码器LLM中重复什么

arXiv cs.CL · 2天前 缓存

PartRep提出了一种针对仅解码器LLM的选择性提示重复方法,仅追加最有信息量的令牌(通过NLL选择),而非完整提示,从而减少KV缓存和预填充FLOPs,同时在多个基准测试上保留大部分准确率提升。

0 人收藏 0 人点赞
#attention

MultAttnAttrib: 长文档问答中的免训练多模态归因

arXiv cs.CL · 2天前 缓存

介绍 MultAttnAttrib,一种用于长文档问答中多模态归因的免训练方法,以及 MultAttrEval 基准测试。它优于基于提示的方法,并与 GPT-5.4 等前沿模型相当。

0 人收藏 0 人点赞
#attention

社交媒体的未来:基于用户数据的即时AI生成个性化内容

Reddit r/ArtificialInteligence · 3天前

探讨了未经用户同意的情况下,AI生成的个性化内容充斥社交媒体动态的可能性,引发了对操控和注意力经济的担忧。

0 人收藏 0 人点赞
#attention

@athleticKoder:一篇关于LLM推理原理的1600字笔记,涵盖:1. 注意力机制——token交互的唯一场所 2. KV缓存——为何...

X AI KOLs Timeline · 3天前 缓存

一篇详细阐述LLM推理关键概念的推文:注意力机制、KV缓存、分块预填充以及批处理技术,包括vLLM和SGLang中使用的连续批处理。

0 人收藏 0 人点赞
#attention

@AaronWeiHuang:我们最新博客探讨了FP4如何从压缩工具演变为训练和推理的实用基础方案,涵盖……

X AI KOLs Following · 5天前 缓存

NVIDIA的博客详细介绍了FP4(配合NVFP4格式和Blackwell硬件)如何从一种压缩技巧演变为训练和推理的实用基础方案,涵盖LLM和扩散模型,并实现了接近16位的精度。

0 人收藏 0 人点赞
#attention

FADE:通过减少语言先验主导性来缓解大型视觉语言模型中的幻觉

arXiv cs.AI · 5天前 缓存

本文提出FADE,一种无需训练的方法,通过削弱关键层的FFN输出来减少语言先验主导性,从而缓解大型视觉语言模型中的幻觉,并在多个基准测试中证明了有效性。

0 人收藏 0 人点赞
#attention

从单一动作到预测、规划与不可逆性:世界模型中预测的路径空间形式化

arXiv cs.LG · 5天前 缓存

本文提出了一种AI世界模型中预测的路径空间形式化方法,将未来轨迹的分布视为基本预测对象。研究表明,预测、规划和不确定性表现为对单一作用泛函的操作,并证明学习模型中的注意力不对称性与数据中的不可逆性相关。

0 人收藏 0 人点赞
#attention

内存管理的长上下文注意力:可编辑请求本地内存的初步研究

arXiv cs.CL · 5天前 缓存

本文研究了内存管理的长上下文注意力,这是一个将高效状态压缩与显式可编辑内存槽分开的研究方向。实验表明,结合快速循环/稀疏主干网络与显式内存管理的混合方法,在合成任务和长上下文基准测试中均优于纯固定状态或纯稀疏方法。

0 人收藏 0 人点赞
#attention

通过层特定位置嵌入缩放缓解Transformer中的位置偏差

arXiv cs.CL · 6天前 缓存

介绍LPES,一种层特定位置嵌入缩放方法,通过使用贝塞尔曲线的遗传算法为每层分配不同的缩放因子,缓解LLM中的“中间丢失”问题,无需微调或增加延迟即可实现高达11.2%的准确率提升。

0 人收藏 0 人点赞
#attention

@badlogicgames:推荐阅读。

X AI KOLs Timeline · 2026-06-28 缓存

本文讨论了软件工程中的有限认知概念,强调了人类记忆和注意力的局限性,以及在这些限制下如何构建软件系统。

0 人收藏 0 人点赞
#attention

@VukRosic99: 当小模型从大模型学习时,一半的教训被浪费了 设置:一个小的“学生”模型写出答案…

X AI KOLs Timeline · 2026-06-28 缓存

该论文识别了语言模型在策略蒸馏中的位置偏差,即学生模型生成的答案中后面的token接收到的监督质量下降。所提出的重要性加权在策略蒸馏(IW-OPD)根据累积漂移对修正进行加权,提高了学习速度和最终性能。

0 人收藏 0 人点赞
#attention

@rohanpaul_ai: 这篇论文通过让每个token只使用它需要的查询头,使长上下文注意力更便宜、更快。Rea…

X AI KOLs Following · 2026-06-27 缓存

该论文引入了Grouped Query Experts,通过在分组查询注意力基础上将每个token路由到少数几个查询头专家,改进了长上下文注意力,在匹配准确率的同时实现了1.7-1.8倍的预填充速度提升。

0 人收藏 0 人点赞
#attention

MathFormer: 测试符号数学是模式匹配还是推理 [D]

Reddit r/MachineLearning · 2026-06-27

MathFormer 是一个小型 seq2seq 模型,在符号数学任务上实现了约 98.6% 的准确率,这表明 LLM 中的数学推理可能是一种大规模的结构化模式补全,而非真正的推理。

0 人收藏 0 人点赞
#attention

在词元级别上比较Transformer和混合模型

Lobsters Hottest · 2026-06-27 缓存

本文分析了使用Olmo 3和Olmo Hybrid的Transformer与混合注意力-循环模型在词元级别上的预测差异,发现混合模型在语义状态追踪方面有所改进,而Transformer在n元组复制和语法括号匹配方面表现出色。

0 人收藏 0 人点赞
#attention

@_avichawla: 一个棘手的LLM面试题:你在vLLM上部署推理模型,长序列时GPU内存总是不够用。于是你加入KV缓存压缩,驱逐了90%的缓存token。显存占用依旧,GPU仍然内存不足。为什么?

X AI KOLs Timeline · 2026-06-27 缓存

解释了为什么在vLLM上部署推理模型时,驱逐90%的KV缓存token无法释放GPU内存,原因是分页注意力碎片化。同时介绍了NVIDIA的TriAttention解决方案,可实现2.5倍加速和10.7倍内存缩减。

0 人收藏 0 人点赞
#attention

面向有限认知的工程

Hacker News Top · 2026-06-26 缓存

文章探讨了人类认知的局限性——例如工作记忆只能同时处理大约四个项目——以及这些限制如何塑造软件工程,并论证了许多“人为错误”实际上是设计缺陷。

0 人收藏 0 人点赞
#attention

基于顿悟感知的KV缓存淘汰方法(无需注意力矩阵)

arXiv cs.LG · 2026-06-26 缓存

本文介绍了EpiKV,一种基于内部表征变化(顿悟分数)而非注意力权重来评估token重要性的KV缓存淘汰方法,无需具体化注意力矩阵。该方法在推理基准测试中取得了具有竞争力的性能,同时支持长达16倍的上下文长度。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈