transformers

#transformers

我们正撞墙：试图强迫 Transformer 执行真正的逻辑 [D]

Reddit r/MachineLearning ↗ · 5小时前

作者对行业依赖提示词工程和扩展规模来解决基于 Transformer 的大语言模型（LLM）逻辑推理缺陷表示沮丧，认为这些概率模型从根本上缺乏确定性逻辑的架构。

0 人收藏 0 人点赞

#transformers

Transformer 记忆的吸引子几何：从冲突仲裁到自信幻觉

arXiv cs.AI ↗ · 昨天缓存

本文提出了一个统一的几何框架，用于理解 Transformer 的内存故障，通过隐藏状态吸引子盆地（attractor basins）区分冲突仲裁与幻觉。研究表明，随着模型规模的扩大，几何边际（geometric margin）在检测这些故障方面优于输出熵。

0 人收藏 0 人点赞

#transformers

Transformer模型学习中产生的捷径策略损害其持续组合推理能力

arXiv cs.LG ↗ · 昨天缓存

本研究论文探讨了Transformer模型（特别是BERT）在学习过程中产生的捷径策略如何削弱其持续组合推理能力。研究将BERT与ALBERT进行对比，发现ALBERT的循环特性为持续学习任务提供了更好的归纳偏置。

0 人收藏 0 人点赞

#transformers

TIDE：每一层都知晓上下文中的令牌

arXiv cs.CL ↗ · 昨天缓存

本文介绍了 TIDE，一种通过嵌入记忆（Embedding Memory）将令牌身份注入每一层，从而解决大语言模型（LLM）中罕见令牌问题和上下文崩溃问题的方法。作者在理论上和经验上证明了该方法在语言建模和下游任务中的改进。

0 人收藏 0 人点赞

#transformers

基于语义损失的微调方法以防止因果推理中的模型崩溃

arXiv cs.LG ↗ · 昨天缓存

本文指出了标准微调在因果推理任务中存在的“模型崩溃”问题，并提出了一种结合基于图的逻辑约束的语义损失函数来防止该现象。

0 人收藏 0 人点赞

#transformers

@YouJiacheng: > 直接将RoPE旋转应用于KV会泄露位置信息到值矩阵V 科学空间亦有记载 https://kexue.fm/…

X AI KOLs Timeline ↗ · 2天前缓存

一条社交媒体帖子讨论了直接将RoPE旋转应用于KV缓存的技术含义，指出这会泄露位置信息到值矩阵V。

0 人收藏 0 人点赞

#transformers

Transformer 数学探索器 [P]

Reddit r/MachineLearning ↗ · 2天前

这个交互式工具通过数据流图可视化 Transformer 模型的数学基础，涵盖了从 GPT-2 到 Qwen 3.6 的架构以及各种注意力机制。

0 人收藏 0 人点赞

#transformers

huggingface/transformers 发布 5.8.0 版本

GitHub Releases Watchlist ↗ · 4天前缓存

Hugging Face 发布了 Transformers 库 5.8.0 版本，这是一个广泛用于自然语言处理和深度学习的开源框架。

0 人收藏 0 人点赞

#transformers

Transformer中隐式演绎推理的缩放特性

Hugging Face Daily Papers ↗ · 4天前缓存

本研究探讨了带有双向掩码的深度Transformer如何实现与显式思维链方法相媲美的隐式演绎推理。研究表明，算法对齐的模型能够在多种图拓扑结构和问题宽度上扩展推理能力。

0 人收藏 0 人点赞

#transformers

huggingface/transformers 补丁版本 v5.6.2 发布

GitHub Releases Watchlist ↗ · 2026-04-23 缓存

Hugging Face Transformers 库发布了补丁版本 5.6.2，包含少量错误修复和维护更新。

0 人收藏 0 人点赞

#transformers

@ramin_m_h：Shopify CTO：“我认为在与 Transformer 混合的形式下，它们 [Liquid 模型] 可能是我所知道的最佳架构”

X AI KOLs Following ↗ · 2026-04-22 缓存

Shopify CTO 公开支持混合 Liquid-Transformer 模型为当前最佳架构，微软高管同时分享实际落地场景。

0 人收藏 0 人点赞

#transformers

huggingface/transformers v5.6.0 发布

GitHub Releases Watchlist ↗ · 2026-04-22 缓存

Hugging Face 发布其热门 transformers 库的 5.6.0 版本。

0 人收藏 0 人点赞

#transformers

@simpreetkaur_19: AI工程师面试必读论文：1. Attention is all you need（Transformers）2. LoRA（低秩…

X AI KOLs Timeline ↗ · 2026-04-22 缓存

为面试准备的精选AI基础论文清单，涵盖Transformer、高效微调、视觉模型与生成网络。

0 人收藏 0 人点赞

#transformers

@reach_vb：Attention 真的是你所需要的一切

X AI KOLs Following ↗ · 2026-04-22 缓存

一条趣味推文，引用了著名的 Transformer 论文《Attention Is All You Need》。

0 人收藏 0 人点赞

#transformers

# 专家乘积训练减少自然语言推理中的数据集伪影来源：[https://arxiv.org/html/2604.19069](https://arxiv.org/html/2604.19069) ###### 摘要神经NLI模型过度拟合数据集伪影而非真正推理。仅假设模型在SNLI上达到57.7%，显示出强烈虚假关联，其中38.6%的基线错误源于这些伪影。作者提出专家乘积（PoE）训练，对偏见模型过度自信的样本降权。

0 人收藏 0 人点赞

#transformers