transformer-architecture

#transformer-architecture

@simplifyinAI: DeepSeek 对 Transformer 架构进行了根本性重构。它解决了导致大规模 AI 模型崩溃的“身份危机”……

X AI KOLs Timeline ↗ · 昨天

DeepSeek 发表了一篇论文，介绍了 mHC（流形约束超连接，Manifold-Constrained Hyper-Connections），这是一种对 Transformer 架构的根本性重写，通过用数学约束的多流路径替换标准残差连接，来稳定大型模型。

0 人收藏 0 人点赞

#transformer-architecture

@tetsuoai: 四十分钟的白板讲解。完整的Transformer架构。然后打开Vim并用C语言编写。

X AI KOLs Timeline ↗ · 2天前缓存

一段40分钟的讲解通过白板图完整介绍了Transformer架构，并演示了如何在Vim中使用C语言进行实际实现。

0 人收藏 0 人点赞

#transformer-architecture

@AYi_AInotes: 看完这个开源项目整个人都懵了，Anthropic藏得严严实实的Claude Mythos模型黑箱，被一个22岁的创业者扒开还全开源了这个 22岁的AI创业小哥把Claude Mythos的黑箱给扒开了。他猜Anthropic最新的这个…

X AI KOLs Timeline ↗ · 2026-04-19 缓存

一位22岁创业者据称通过开源项目揭开了Anthropic Claude Mythos模型的架构黑箱，并推测其采用了循环深度Transformer设计而非单纯扩大参数规模。

0 人收藏 0 人点赞

#transformer-architecture

ResBM：一种基于Transformer的新型架构，用于低带宽流水线并行训练，实现128倍激活压缩 [R]

Reddit r/MachineLearning ↗ · 2026-04-16

ResBM提出了一种基于Transformer的架构，采用残差编码器-解码器瓶颈用于流水线并行训练，在保持收敛的同时实现了128倍激活压缩。该工作通过减少阶段间通信开销，推进了去中心化、互联网级分布式训练的发展。

0 人收藏 0 人点赞

#transformer-architecture

Three-Phase Transformer

Hugging Face Daily Papers ↗ · 2026-04-15 缓存

一篇介绍Three-Phase Transformer（3PT）的研究论文，该模型将特斯拉的多相几何应用于Transformer架构，将残差流组织成三个120°偏移的相位。该方法在WikiText-103上以极少的参数（0.00124%的开销）实现了7.2%的困惑度提升，以及1.93倍的收敛加速。

0 人收藏 0 人点赞

#transformer-architecture

Motif-Video 2B：技术报告

Hugging Face Daily Papers ↗ · 2026-04-14 缓存

# 论文页面 - Motif-Video 2B：技术报告来源：[https://huggingface.co/papers/2604.16503](https://huggingface.co/papers/2604.16503) 作者：、、、、、、、、、、、、、、、、、、、、、 ## 摘要 Motif-Video 2B 采用共享交叉注意力与三段式主干的专用架构，以及高效训练方法，在显著降低参数量和训练数据用量的同时，实现了高质量文本到视频生成。

0 人收藏 0 人点赞

transformer-architecture

@simplifyinAI: DeepSeek 对 Transformer 架构进行了根本性重构。它解决了导致大规模 AI 模型崩溃的“身份危机”……

@tetsuoai: 四十分钟的白板讲解。完整的Transformer架构。然后打开Vim并用C语言编写。

@AYi_AInotes: 看完这个开源项目整个人都懵了，Anthropic藏得严严实实的Claude Mythos模型黑箱，被一个22岁的创业者扒开还全开源了 这个 22岁的AI创业小哥把Claude Mythos的黑箱给扒开了。 他猜Anthropic最新的这个…

ResBM：一种基于Transformer的新型架构，用于低带宽流水线并行训练，实现128倍激活压缩 [R]

Three-Phase Transformer

Motif-Video 2B：技术报告

提交意见反馈

@AYi_AInotes: 看完这个开源项目整个人都懵了，Anthropic藏得严严实实的Claude Mythos模型黑箱，被一个22岁的创业者扒开还全开源了这个 22岁的AI创业小哥把Claude Mythos的黑箱给扒开了。他猜Anthropic最新的这个…