attention-mechanisms

#attention-mechanisms

答案词元如何读取推理轨迹？思维大模型在定量推理中的自读模式

arXiv cs.CL ↗ · 2026-04-22 缓存

研究发现，思维大模型中的答案词元在定量推理时遵循结构化自读模式——前向漂移+聚焦关键锚点，并据此提出免训练 SRQ 引导方法，无需微调即可提升准确率。

0 人收藏 0 人点赞

#attention-mechanisms

arXiv cs.CL ↗ · 2026-04-20 缓存

ATTNPO 引入了一个注意力引导的过程监督框架，通过利用内在的注意力信号进行步级信用分配，减少大型推理模型的过度思考，在 9 个基准测试中实现了更好的性能和更短的推理长度。

0 人收藏 0 人点赞

#attention-mechanisms

arXiv cs.CL ↗ · 2026-04-20 缓存

本论文探究了在新知识上微调LLM如何诱导事实幻觉，研究表明特定知识类型内的陌生性通过削弱对关键实体的注意力来驱动幻觉。作者提议通过在后期训练阶段重新引入已知知识来缓解这一问题。

0 人收藏 0 人点赞

#attention-mechanisms

arXiv cs.CL ↗ · 2026-04-20 缓存

本论文引入注意力转移（Attention-Shifting, AS）框架，用于大语言模型的选择性机器遗忘，在有效移除敏感信息与防止幻觉和保持模型性能之间取得平衡。该方法采用重要性感知的注意力抑制和保留增强机制，在标准基准上相比现有遗忘方法实现了高达15%的准确度保持率提升。

0 人收藏 0 人点赞

#attention-mechanisms

arXiv cs.CL ↗ · 2026-04-20 缓存

AtManRL 是一种通过可微分注意力操作和强化学习来训练大语言模型的方法，旨在确保推理令牌因果地影响最终预测，从而生成更忠实的思维链推理。在 GSM8K 和 MMLU 上使用 Llama-3.2-3B 进行的实验表明，该方法能够识别具有影响力的推理令牌并提高推理透明度。

0 人收藏 0 人点赞

#attention-mechanisms

arXiv cs.CL ↗ · 2026-04-20 缓存

一项对比研究，评估了三种可解释性技术（Integrated Gradients、Attention Rollout、SHAP）在微调 DistilBERT 模型上的表现，用于情感分类任务，重点突出了基于梯度、基于注意力和模型无关方法在大语言模型可解释性中的权衡。

0 人收藏 0 人点赞

#attention-mechanisms

Hugging Face Daily Papers ↗ · 2026-04-11 缓存

EEG-tGAT是一种时间增强的图注意力网络，通过融合时间注意力和dropout机制来改进交互序列的可供性分类。该模型在GATv2基础上进行了增强，适用于时间维度语义不均匀的序列数据。

0 人收藏 0 人点赞