transformers

标签

Cards List
#transformers

我们正撞墙:试图强迫 Transformer 执行真正的逻辑 [D]

Reddit r/MachineLearning · 5小时前

作者对行业依赖提示词工程和扩展规模来解决基于 Transformer 的大语言模型(LLM)逻辑推理缺陷表示沮丧,认为这些概率模型从根本上缺乏确定性逻辑的架构。

0 人收藏 0 人点赞
#transformers

Transformer 记忆的吸引子几何:从冲突仲裁到自信幻觉

arXiv cs.AI · 昨天 缓存

本文提出了一个统一的几何框架,用于理解 Transformer 的内存故障,通过隐藏状态吸引子盆地(attractor basins)区分冲突仲裁与幻觉。研究表明,随着模型规模的扩大,几何边际(geometric margin)在检测这些故障方面优于输出熵。

0 人收藏 0 人点赞
#transformers

Transformer模型学习中产生的捷径策略损害其持续组合推理能力

arXiv cs.LG · 昨天 缓存

本研究论文探讨了Transformer模型(特别是BERT)在学习过程中产生的捷径策略如何削弱其持续组合推理能力。研究将BERT与ALBERT进行对比,发现ALBERT的循环特性为持续学习任务提供了更好的归纳偏置。

0 人收藏 0 人点赞
#transformers

TIDE:每一层都知晓上下文中的令牌

arXiv cs.CL · 昨天 缓存

本文介绍了 TIDE,一种通过嵌入记忆(Embedding Memory)将令牌身份注入每一层,从而解决大语言模型(LLM)中罕见令牌问题和上下文崩溃问题的方法。作者在理论上和经验上证明了该方法在语言建模和下游任务中的改进。

0 人收藏 0 人点赞
#transformers

基于语义损失的微调方法以防止因果推理中的模型崩溃

arXiv cs.LG · 昨天 缓存

本文指出了标准微调在因果推理任务中存在的“模型崩溃”问题,并提出了一种结合基于图的逻辑约束的语义损失函数来防止该现象。

0 人收藏 0 人点赞
#transformers

@YouJiacheng: > 直接将RoPE旋转应用于KV会泄露位置信息到值矩阵V 科学空间亦有记载 https://kexue.fm/…

X AI KOLs Timeline · 2天前 缓存

一条社交媒体帖子讨论了直接将RoPE旋转应用于KV缓存的技术含义,指出这会泄露位置信息到值矩阵V。

0 人收藏 0 人点赞
#transformers

Transformer 数学探索器 [P]

Reddit r/MachineLearning · 2天前

这个交互式工具通过数据流图可视化 Transformer 模型的数学基础,涵盖了从 GPT-2 到 Qwen 3.6 的架构以及各种注意力机制。

0 人收藏 0 人点赞
#transformers

huggingface/transformers 发布 5.8.0 版本

GitHub Releases Watchlist · 4天前 缓存

Hugging Face 发布了 Transformers 库 5.8.0 版本,这是一个广泛用于自然语言处理和深度学习的开源框架。

0 人收藏 0 人点赞
#transformers

Transformer中隐式演绎推理的缩放特性

Hugging Face Daily Papers · 4天前 缓存

本研究探讨了带有双向掩码的深度Transformer如何实现与显式思维链方法相媲美的隐式演绎推理。研究表明,算法对齐的模型能够在多种图拓扑结构和问题宽度上扩展推理能力。

0 人收藏 0 人点赞
#transformers

huggingface/transformers 补丁版本 v5.6.2 发布

GitHub Releases Watchlist · 2026-04-23 缓存

Hugging Face Transformers 库发布了补丁版本 5.6.2,包含少量错误修复和维护更新。

0 人收藏 0 人点赞
#transformers

@ramin_m_h:Shopify CTO:“我认为在与 Transformer 混合的形式下,它们 [Liquid 模型] 可能是我所知道的最佳架构”

X AI KOLs Following · 2026-04-22 缓存

Shopify CTO 公开支持混合 Liquid-Transformer 模型为当前最佳架构,微软高管同时分享实际落地场景。

0 人收藏 0 人点赞
#transformers

huggingface/transformers v5.6.0 发布

GitHub Releases Watchlist · 2026-04-22 缓存

Hugging Face 发布其热门 transformers 库的 5.6.0 版本。

0 人收藏 0 人点赞
#transformers

@simpreetkaur_19: AI工程师面试必读论文:1. Attention is all you need(Transformers)2. LoRA(低秩…

X AI KOLs Timeline · 2026-04-22 缓存

为面试准备的精选AI基础论文清单,涵盖Transformer、高效微调、视觉模型与生成网络。

0 人收藏 0 人点赞
#transformers

@reach_vb:Attention 真的是你所需要的一切

X AI KOLs Following · 2026-04-22 缓存

一条趣味推文,引用了著名的 Transformer 论文《Attention Is All You Need》。

0 人收藏 0 人点赞
#transformers

专家乘积训练减少自然语言推理中的数据集伪影

arXiv cs.CL · 2026-04-22 缓存

# 专家乘积训练减少自然语言推理中的数据集伪影 来源:[https://arxiv.org/html/2604.19069](https://arxiv.org/html/2604.19069) ###### 摘要 神经NLI模型过度拟合数据集伪影而非真正推理。仅假设模型在SNLI上达到57.7%,显示出强烈虚假关联,其中38.6%的基线错误源于这些伪影。作者提出专家乘积(PoE)训练,对偏见模型过度自信的样本降权。

0 人收藏 0 人点赞
#transformers

KV缓存压缩比TurboQuant与逐向量香农极限高出900000倍

Hacker News Top · 2026-04-21 缓存

一篇新论文提出了一种基于概率语言Trie树和预测差分编码的顺序KV缓存压缩方法。该方法通过利用语言模型Token的序列结构而非对向量进行独立处理,实现了超越TurboQuant约91.4万倍的理论压缩比。

0 人收藏 0 人点赞
#transformers

你自己会提交的那个 PR

Hugging Face Blog · 2026-04-16 缓存

Hugging Face 发布了一项新的「Skill」和测试框架,旨在帮助将语言模型从 transformers 库迁移到 mlx-lm,利用代码智能体来简化开源贡献流程。

0 人收藏 0 人点赞
#transformers

huggingface/transformers 补丁发布 v5.5.4

GitHub Releases Watchlist · 2026-04-13 缓存

Hugging Face 发布了 transformers 库的补丁版本 v5.5.4,这是对该广泛使用的 NLP/深度学习框架的例行维护更新。

0 人收藏 0 人点赞
#transformers

Transformer 中的专家混合模型 (MoEs)

Hugging Face Blog · 2026-02-26 缓存

Hugging Face 的博客文章,介绍 Transformer 中的专家混合模型 (MoEs) 架构,涵盖从密集模型到稀疏模型的转变、权重加载优化、专家并行计算以及基于 MoE 的语言模型训练技术。

0 人收藏 0 人点赞
#transformers

它是如何做到如此出色的?(DALL-E 解析 第二部分)

ML at Berkeley · 2021-04-07 缓存

本文介绍了 DALL-E 的架构,重点阐述其 Transformer 组件如何将语言与离散图像表示相关联,从而根据文本提示生成高质量图像。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈