transformer-architecture

#transformer-architecture

我写了一个免费的15部分系列文章，讲解LLM内部原理——真实的数学、真实的张量形状、真实的硬件限制。全部基于Gemma 4 12B的实际配置。

Reddit r/LocalLLaMA ↗ · 6天前

一个涵盖LLM内部原理的全面15部分系列，从分词到服务部署，基于Gemma 4 12B的实际配置。

0 人收藏 0 人点赞

#transformer-architecture

OneRank：面向多任务推荐的统一原生Transformer排序架构

Hugging Face Daily Papers ↗ · 2026-06-15 缓存

OneRank提出了一种原生Transformer的多任务排序框架，该框架将特征编码与预测相结合，以减少任务间干扰并提升推荐系统中的排序性能。

0 人收藏 0 人点赞

#transformer-architecture

@_rohit_tiwari_: https://x.com/_rohit_tiwari_/status/2063982924714901858

X AI KOLs Timeline ↗ · 2026-06-08 缓存

本文提供了大型语言模型中Transformer架构的可视化指南，涵盖自注意力、因果自注意力、掩码多头注意力以及输出层，并附有逐步解释和示例。

0 人收藏 0 人点赞

#transformer-architecture

MoE专业化中的几何不对称性：功能去相关与表示重叠

arXiv cs.LG ↗ · 2026-05-19 缓存

本文提出一个Jacobian-PCA-Grassmann框架，用于分析混合专家（MoE）Transformer中专家专业化的几何结构。研究发现，专家表现出强烈的功能去相关，而其表示存在重叠，并且路由稀疏性显著影响这一几何结构。

0 人收藏 0 人点赞

#transformer-architecture

超越余弦相似度：重新思考大语言模型中的层相关性

arXiv cs.LG ↗ · 2026-05-15 缓存

本文证明，余弦相似度作为评估大语言模型中层重要性的指标效果不佳，并提出使用层移除后实际准确率下降作为更稳健的度量标准。

0 人收藏 0 人点赞

#transformer-architecture

RT-Transformer：将 Transformer Block 视为球面状态估计器

arXiv cs.LG ↗ · 2026-05-13 缓存

本文提出了一种理论框架，解释 Transformer 组件（注意力机制、残差连接、归一化）如何源于使用径向-切线随机微分方程（Radial-Tangential SDEs）的球面状态估计问题。

0 人收藏 0 人点赞

#transformer-architecture

@pallavishekhar_: 大语言模型中的 KV Cache，阅读链接：https://outcomeschool.com/blog/kv-cache-in-llms…

X AI KOLs Timeline ↗ · 2026-05-09 缓存

本文解释了大语言模型中 KV Cache 的概念，详细阐述了其通过存储和复用键值对以避免推理过程中的冗余计算，从而优化文本生成的原理。

0 人收藏 0 人点赞

#transformer-architecture

@simplifyinAI: DeepSeek 对 Transformer 架构进行了根本性重构。它解决了导致大规模 AI 模型崩溃的“身份危机”……

X AI KOLs Timeline ↗ · 2026-05-09

DeepSeek 发表了一篇论文，介绍了 mHC（流形约束超连接，Manifold-Constrained Hyper-Connections），这是一种对 Transformer 架构的根本性重写，通过用数学约束的多流路径替换标准残差连接，来稳定大型模型。

0 人收藏 0 人点赞

#transformer-architecture

@tetsuoai: 四十分钟的白板讲解。完整的Transformer架构。然后打开Vim并用C语言编写。

X AI KOLs Timeline ↗ · 2026-05-08 缓存

一段40分钟的讲解通过白板图完整介绍了Transformer架构，并演示了如何在Vim中使用C语言进行实际实现。

0 人收藏 0 人点赞

#transformer-architecture

@AYi_AInotes: 看完这个开源项目整个人都懵了，Anthropic藏得严严实实的Claude Mythos模型黑箱，被一个22岁的创业者扒开还全开源了这个 22岁的AI创业小哥把Claude Mythos的黑箱给扒开了。他猜Anthropic最新的这个…

X AI KOLs Timeline ↗ · 2026-04-19 缓存

一位22岁创业者据称通过开源项目揭开了Anthropic Claude Mythos模型的架构黑箱，并推测其采用了循环深度Transformer设计而非单纯扩大参数规模。

0 人收藏 0 人点赞

#transformer-architecture

ResBM：一种基于Transformer的新型架构，用于低带宽流水线并行训练，实现128倍激活压缩 [R]

Reddit r/MachineLearning ↗ · 2026-04-16

ResBM提出了一种基于Transformer的架构，采用残差编码器-解码器瓶颈用于流水线并行训练，在保持收敛的同时实现了128倍激活压缩。该工作通过减少阶段间通信开销，推进了去中心化、互联网级分布式训练的发展。

0 人收藏 0 人点赞

#transformer-architecture

Three-Phase Transformer

Hugging Face Daily Papers ↗ · 2026-04-15 缓存

一篇介绍Three-Phase Transformer（3PT）的研究论文，该模型将特斯拉的多相几何应用于Transformer架构，将残差流组织成三个120°偏移的相位。该方法在WikiText-103上以极少的参数（0.00124%的开销）实现了7.2%的困惑度提升，以及1.93倍的收敛加速。

0 人收藏 0 人点赞

#transformer-architecture

Motif-Video 2B：技术报告

Hugging Face Daily Papers ↗ · 2026-04-14 缓存

# 论文页面 - Motif-Video 2B：技术报告来源：[https://huggingface.co/papers/2604.16503](https://huggingface.co/papers/2604.16503) 作者：、、、、、、、、、、、、、、、、、、、、、 ## 摘要 Motif-Video 2B 采用共享交叉注意力与三段式主干的专用架构，以及高效训练方法，在显著降低参数量和训练数据用量的同时，实现了高质量文本到视频生成。

0 人收藏 0 人点赞

transformer-architecture

提交意见反馈