transformers

#transformers

@AlphaSignalAI: https://x.com/AlphaSignalAI/status/2069424192274252094

X AI KOLs Timeline ↗ · 7小时前缓存

微软的NextLat引入了一种训练目标，它奖励信念状态表示，而不是仅仅依赖于下一个词预测，从而推动模型向紧凑的世界模型发展，以实现更好的泛化。

0 人收藏 0 人点赞

#transformers

@TheAhmadOsman: 不可思议的资源从第一性原理理解LLM的最完整指南现已可在网上阅读…

X AI KOLs Timeline ↗ · 昨天缓存

一份全面的免费指南，从第一性原理解释LLM，涵盖令牌、Transformer、注意力机制、微调和本地部署。

0 人收藏 0 人点赞

#transformers

@omershapira: 今天学到：Jurafsky & Martin的教科书——我多年前在本科计算语言学课上使用的（那时TAU没有开设这门课）……

X AI KOLs Following ↗ · 2天前缓存

Jurafsky和Martin的《Speech and Language Processing》教科书第三版于2026年1月发布，其中对Transformers进行了清晰解释，并包括ASR、TTS和DPO等新章节的更新。

0 人收藏 0 人点赞

#transformers

@antoniolupetti：丹尼尔·朱拉夫斯基和詹姆斯·H·马丁所著的《Transformers》是我读过的最清晰、数学基础最扎实的介绍之一……

X AI KOLs Timeline ↗ · 5天前缓存

一条推文重点介绍了朱拉夫斯基和马丁教科书中的Transformer架构章节，赞扬其对自注意力、多头注意力及相关机制清晰且数学基础扎实的解释。

0 人收藏 0 人点赞

#transformers

局部与全局注意力的双维度

arXiv cs.CL ↗ · 5天前缓存

提出距离自适应表示（DAR），该方法对远距离token降低键值维度，同时保留附近token的全维度，在不损失性能的前提下提升KV缓存效率。

0 人收藏 0 人点赞

#transformers

@markchen90：热烈欢迎@NoamShazeer加入OpenAI，担任架构研究的新负责人！他在transformer、MoE方面的工作…

X AI KOLs Timeline ↗ · 5天前缓存

此前在Google工作的Noam Shazeer——transformer和MoE的关键研究者——将加入OpenAI，担任架构研究负责人。

0 人收藏 0 人点赞

#transformers

它是否具备足够的代理能力？使用你自己的工具对开放模型进行基准测试

Hugging Face Blog ↗ · 5天前缓存

这篇博客文章介绍了一种基准测试方法，用于评估开放模型在代理编程任务上的表现，不仅关注准确性，还关注代理过程的效率。它提供了一个使用 pi coding agent 的可定制工具框架，并在不同模型和库版本上进行测试。

0 人收藏 0 人点赞

#transformers

下一代潜在预测变换器 [R]

Reddit r/MachineLearning ↗ · 6天前

微软研究院提出Next-Latent Prediction (NextLat)方法，一种自监督学习方法，训练变换器预测自身下一个潜在状态，从而形成用于推理和规划的紧凑世界模型，并通过自推测解码实现高达3.3倍的推理加速。

0 人收藏 0 人点赞

#transformers

基于有界深度文法的深度Transformer层次建模表达性分析

arXiv cs.CL ↗ · 6天前缓存

本文对深度Transformer使用有界深度上下文无关文法建模层次结构的能力进行了理论分析，构建了显式的位置注意力Transformer，将文法状态编码到线性可分的子空间中。

0 人收藏 0 人点赞

#transformers

MorphStrata：面向时间序列移动目标防御中Morphence学生生成的层特定扰动策略

arXiv cs.LG ↗ · 6天前缓存

MorphStrata提出了一种层特定随机噪声注入策略，用于在移动目标防御框架中生成多样化的学生模型，以增强时间序列预测的对抗鲁棒性，在BIM攻击下实现了高达97.97%的RMSE改进，且训练开销极低。

0 人收藏 0 人点赞

#transformers

模型在预填充阶段做笔记：KV缓存可编辑且可组合

arXiv cs.LG ↗ · 6天前缓存

本文提出，Transformer中的KV缓存充当了记忆化结论的笔记本，使得无需完全重计算即可进行精确编辑和组合。该方法在保持跨模型规模决策等价性的同时，实现了显著的延迟降低。

0 人收藏 0 人点赞

#transformers

@machinestein: ICML 2026：TRMs中的潜在推理实际上是策略改进算子为什么递归推理，尤其是…

X AI KOLs Timeline ↗ · 2026-06-16 缓存

论文揭示了基于transformer的推理模型（TRMs）中的潜在推理实际上充当了策略改进算子，并提出了一种算法，将学习和推理效率提升高达18倍。

0 人收藏 0 人点赞

#transformers

基于序列模型的符号谜题递归推理

arXiv cs.AI ↗ · 2026-06-16 缓存

本文介绍了RecurrReason，这是一个难度可控的基准测试，包含四个符号逻辑谜题，用于评估序列模型中的多步推理能力。在T5和GPT-2上的微调实验表明，架构比规模更能决定成功，且预训练迁移依赖于局部转移结构。

0 人收藏 0 人点赞

#transformers

Transformer学习Mestre-Nagao启发式方法

arXiv cs.LG ↗ · 2026-06-16 缓存

本文训练了一个两层Transformer编码器，利用Frobenius迹将有理椭圆曲线按秩分类，准确率超过99%。机械可解释性揭示该模型学习了Mestre-Nagao启发式方法，并将注意力集中在素数位置上，表明Transformer能够学习数论算法。

0 人收藏 0 人点赞

#transformers

利用生理信号通过机器学习预测考试结果

arXiv cs.LG ↗ · 2026-06-16 缓存

本研究探讨了利用皮肤电活动、心率和皮肤温度等生理数据，通过机器学习模型预测考试结果，发现深度学习方法与随机森林等简单模型均能有效发挥作用。

0 人收藏 0 人点赞

#transformers

LoopCoder-v2：仅一次循环实现高效的测试时计算扩展

Hugging Face Daily Papers ↗ · 2026-06-16 缓存

LoopCoder-v2 提出了并行循环变换器（Parallel Loop Transformers，PLT），用于在代码生成中实现高效的测试时计算扩展，证明两次循环能带来显著增益，而更多循环则导致收益递减和位置错位成本。

0 人收藏 0 人点赞

#transformers

变宽变换器

Hugging Face Daily Papers ↗ · 2026-06-16 缓存

提出了一种非均匀宽度分配的变换器（沙漏形状），在语言建模中优于均匀基线，减少了FLOPs和KV缓存大小。

0 人收藏 0 人点赞

#transformers

@che_shr_cat: 1/ 标准Transformer有一个根本的拓扑缺陷：它们无法在不耗尽层数的情况下随时间跟踪动态状态…

X AI KOLs Timeline ↗ · 2026-06-15 缓存

这个帖子认为，标准Transformer存在一个拓扑缺陷：一旦状态表示到达顶层，它们就无法随时间更新信念，随着层数增加导致崩溃。

0 人收藏 0 人点赞

#transformers

Transformer之药

Reddit r/ArtificialInteligence ↗ · 2026-06-12

对Transformer架构在大型语言模型之外广泛影响的反思，包括对语言学、遗传学和因果建模的潜在影响，并将其意义与哈伯-博世法相提并论。

0 人收藏 0 人点赞

#transformers

面向低资源阿尔及利亚方言的端到端混合谣言检测框架

arXiv cs.CL ↗ · 2026-06-12 缓存

本文提出了一种面向低资源阿尔及利亚方言社交媒体内容的端到端混合谣言检测框架，通过结合Transformer嵌入和经典分类器，达到了0.84的F1分数。

0 人收藏 0 人点赞

transformers

提交意见反馈