attention-entropy

#attention-entropy

@sheriyuo: 本文提出ASAG, Attention-State Adaptive Generation, 一个无需训练、即插即用的推理停止框架，用于推理…

X AI KOLs Timeline ↗ · 2026-06-16 缓存

ASAG利用注意力熵来检测推理何时无效益，提前停止以提高准确率并减少token生成。在Qwen3-8B上的实验显示，准确率提升4.4%，生成的token减少超过40%。

0 人收藏 0 人点赞

#attention-entropy

arXiv cs.CL ↗ · 2026-05-18 缓存

本文分析了六种LLM架构在认知任务上的神经激活模式，揭示了编码器和解码器模型在注意力熵和稀疏性上的差异。

0 人收藏 0 人点赞

#attention-entropy

Hacker News Top ↗ · 2026-04-19 缓存

提出一种SRC流水线，通过基于熵的选择和低秩重构对KV缓存进行摘要，而非直接裁剪token，在百万token的LLM上下文中降低显存占用，同时避免灾难性注意力错误。

0 人收藏 0 人点赞