attention

标签

#attention

高效小型语言模型的Wiola架构

arXiv cs.AI ↗ · 2天前缓存

Wiola是一种新颖的小型语言模型（SLM）架构，引入了五个独立设计的组件——SRPE、GCLA、ATM、DSFF和WiolaRMSNorm——旨在提高效率和连贯性，发布了从1.2亿到15亿参数的多个规模，并与HuggingFace Transformers集成。

0 人收藏 0 人点赞

#attention

多头循环记忆代理

arXiv cs.LG ↗ · 2天前缓存

本文指出记忆保留是长上下文场景下循环记忆代理的瓶颈，并提出多头循环记忆（MHM），这是一种无需训练的框架，通过“先选择后更新”策略将记忆划分为独立的头。轻量级实例化版本 MHM-LRU 显著提升了 100K 至 1M token 范围内的记忆保留率和端到端准确率，在 896K token 的 RULER-HQA 上，将记忆保留率从低于 30% 提升至 73.96%。

0 人收藏 0 人点赞

#attention

KV缓存压缩的风险

arXiv cs.LG ↗ · 2天前缓存

本文从理论上刻画了变压器中KV缓存压缩的极小极大风险，为因果掩码下的精确压缩提供了设计原则，并将其实例化到实用算法中，在LongBench上取得了有前景的结果。

0 人收藏 0 人点赞

#attention

PARTREP：学习在仅解码器LLM中重复什么

arXiv cs.CL ↗ · 2天前缓存

PartRep提出了一种针对仅解码器LLM的选择性提示重复方法，仅追加最有信息量的令牌（通过NLL选择），而非完整提示，从而减少KV缓存和预填充FLOPs，同时在多个基准测试上保留大部分准确率提升。

0 人收藏 0 人点赞

#attention

MultAttnAttrib: 长文档问答中的免训练多模态归因

arXiv cs.CL ↗ · 2天前缓存

介绍 MultAttnAttrib，一种用于长文档问答中多模态归因的免训练方法，以及 MultAttrEval 基准测试。它优于基于提示的方法，并与 GPT-5.4 等前沿模型相当。

0 人收藏 0 人点赞

#attention

社交媒体的未来：基于用户数据的即时AI生成个性化内容

Reddit r/ArtificialInteligence ↗ · 3天前

探讨了未经用户同意的情况下，AI生成的个性化内容充斥社交媒体动态的可能性，引发了对操控和注意力经济的担忧。

0 人收藏 0 人点赞

#attention

@athleticKoder：一篇关于LLM推理原理的1600字笔记，涵盖：1. 注意力机制——token交互的唯一场所 2. KV缓存——为何...

X AI KOLs Timeline ↗ · 3天前缓存

一篇详细阐述LLM推理关键概念的推文：注意力机制、KV缓存、分块预填充以及批处理技术，包括vLLM和SGLang中使用的连续批处理。

0 人收藏 0 人点赞

#attention

@AaronWeiHuang：我们最新博客探讨了FP4如何从压缩工具演变为训练和推理的实用基础方案，涵盖……

X AI KOLs Following ↗ · 5天前缓存

NVIDIA的博客详细介绍了FP4（配合NVFP4格式和Blackwell硬件）如何从一种压缩技巧演变为训练和推理的实用基础方案，涵盖LLM和扩散模型，并实现了接近16位的精度。

0 人收藏 0 人点赞

#attention

FADE：通过减少语言先验主导性来缓解大型视觉语言模型中的幻觉

arXiv cs.AI ↗ · 5天前缓存

本文提出FADE，一种无需训练的方法，通过削弱关键层的FFN输出来减少语言先验主导性，从而缓解大型视觉语言模型中的幻觉，并在多个基准测试中证明了有效性。

0 人收藏 0 人点赞

#attention

从单一动作到预测、规划与不可逆性：世界模型中预测的路径空间形式化

arXiv cs.LG ↗ · 5天前缓存

本文提出了一种AI世界模型中预测的路径空间形式化方法，将未来轨迹的分布视为基本预测对象。研究表明，预测、规划和不确定性表现为对单一作用泛函的操作，并证明学习模型中的注意力不对称性与数据中的不可逆性相关。

0 人收藏 0 人点赞

#attention

内存管理的长上下文注意力：可编辑请求本地内存的初步研究

arXiv cs.CL ↗ · 5天前缓存

本文研究了内存管理的长上下文注意力，这是一个将高效状态压缩与显式可编辑内存槽分开的研究方向。实验表明，结合快速循环/稀疏主干网络与显式内存管理的混合方法，在合成任务和长上下文基准测试中均优于纯固定状态或纯稀疏方法。

0 人收藏 0 人点赞

#attention

通过层特定位置嵌入缩放缓解Transformer中的位置偏差

arXiv cs.CL ↗ · 6天前缓存

介绍LPES，一种层特定位置嵌入缩放方法，通过使用贝塞尔曲线的遗传算法为每层分配不同的缩放因子，缓解LLM中的“中间丢失”问题，无需微调或增加延迟即可实现高达11.2%的准确率提升。

0 人收藏 0 人点赞

#attention

@badlogicgames：推荐阅读。

X AI KOLs Timeline ↗ · 2026-06-28 缓存

本文讨论了软件工程中的有限认知概念，强调了人类记忆和注意力的局限性，以及在这些限制下如何构建软件系统。

0 人收藏 0 人点赞

#attention

@VukRosic99: 当小模型从大模型学习时，一半的教训被浪费了设置：一个小的“学生”模型写出答案…

X AI KOLs Timeline ↗ · 2026-06-28 缓存

该论文识别了语言模型在策略蒸馏中的位置偏差，即学生模型生成的答案中后面的token接收到的监督质量下降。所提出的重要性加权在策略蒸馏（IW-OPD）根据累积漂移对修正进行加权，提高了学习速度和最终性能。

0 人收藏 0 人点赞

#attention

@rohanpaul_ai: 这篇论文通过让每个token只使用它需要的查询头，使长上下文注意力更便宜、更快。Rea…

X AI KOLs Following ↗ · 2026-06-27 缓存

该论文引入了Grouped Query Experts，通过在分组查询注意力基础上将每个token路由到少数几个查询头专家，改进了长上下文注意力，在匹配准确率的同时实现了1.7-1.8倍的预填充速度提升。

0 人收藏 0 人点赞

#attention

MathFormer: 测试符号数学是模式匹配还是推理 [D]

Reddit r/MachineLearning ↗ · 2026-06-27

MathFormer 是一个小型 seq2seq 模型，在符号数学任务上实现了约 98.6% 的准确率，这表明 LLM 中的数学推理可能是一种大规模的结构化模式补全，而非真正的推理。

0 人收藏 0 人点赞

#attention

在词元级别上比较Transformer和混合模型

Lobsters Hottest ↗ · 2026-06-27 缓存

本文分析了使用Olmo 3和Olmo Hybrid的Transformer与混合注意力-循环模型在词元级别上的预测差异，发现混合模型在语义状态追踪方面有所改进，而Transformer在n元组复制和语法括号匹配方面表现出色。

0 人收藏 0 人点赞

#attention

@_avichawla: 一个棘手的LLM面试题：你在vLLM上部署推理模型，长序列时GPU内存总是不够用。于是你加入KV缓存压缩，驱逐了90%的缓存token。显存占用依旧，GPU仍然内存不足。为什么？

X AI KOLs Timeline ↗ · 2026-06-27 缓存

解释了为什么在vLLM上部署推理模型时，驱逐90%的KV缓存token无法释放GPU内存，原因是分页注意力碎片化。同时介绍了NVIDIA的TriAttention解决方案，可实现2.5倍加速和10.7倍内存缩减。

0 人收藏 0 人点赞

#attention

面向有限认知的工程

Hacker News Top ↗ · 2026-06-26 缓存

文章探讨了人类认知的局限性——例如工作记忆只能同时处理大约四个项目——以及这些限制如何塑造软件工程，并论证了许多“人为错误”实际上是设计缺陷。

0 人收藏 0 人点赞

#attention

基于顿悟感知的KV缓存淘汰方法（无需注意力矩阵）

arXiv cs.LG ↗ · 2026-06-26 缓存

本文介绍了EpiKV，一种基于内部表征变化（顿悟分数）而非注意力权重来评估token重要性的KV缓存淘汰方法，无需具体化注意力矩阵。该方法在推理基准测试中取得了具有竞争力的性能，同时支持长达16倍的上下文长度。

0 人收藏 0 人点赞

← 返回首页

提交意见反馈