transformer-architecture

标签

Cards List
#transformer-architecture

@simplifyinAI: DeepSeek 对 Transformer 架构进行了根本性重构。它解决了导致大规模 AI 模型崩溃的“身份危机”……

X AI KOLs Timeline · 昨天

DeepSeek 发表了一篇论文,介绍了 mHC(流形约束超连接,Manifold-Constrained Hyper-Connections),这是一种对 Transformer 架构的根本性重写,通过用数学约束的多流路径替换标准残差连接,来稳定大型模型。

0 人收藏 0 人点赞
#transformer-architecture

@tetsuoai: 四十分钟的白板讲解。完整的Transformer架构。然后打开Vim并用C语言编写。

X AI KOLs Timeline · 2天前 缓存

一段40分钟的讲解通过白板图完整介绍了Transformer架构,并演示了如何在Vim中使用C语言进行实际实现。

0 人收藏 0 人点赞
#transformer-architecture

@AYi_AInotes: 看完这个开源项目整个人都懵了,Anthropic藏得严严实实的Claude Mythos模型黑箱,被一个22岁的创业者扒开还全开源了 这个 22岁的AI创业小哥把Claude Mythos的黑箱给扒开了。 他猜Anthropic最新的这个…

X AI KOLs Timeline · 2026-04-19 缓存

一位22岁创业者据称通过开源项目揭开了Anthropic Claude Mythos模型的架构黑箱,并推测其采用了循环深度Transformer设计而非单纯扩大参数规模。

0 人收藏 0 人点赞
#transformer-architecture

ResBM:一种基于Transformer的新型架构,用于低带宽流水线并行训练,实现128倍激活压缩 [R]

Reddit r/MachineLearning · 2026-04-16

ResBM提出了一种基于Transformer的架构,采用残差编码器-解码器瓶颈用于流水线并行训练,在保持收敛的同时实现了128倍激活压缩。该工作通过减少阶段间通信开销,推进了去中心化、互联网级分布式训练的发展。

0 人收藏 0 人点赞
#transformer-architecture

Three-Phase Transformer

Hugging Face Daily Papers · 2026-04-15 缓存

一篇介绍Three-Phase Transformer(3PT)的研究论文,该模型将特斯拉的多相几何应用于Transformer架构,将残差流组织成三个120°偏移的相位。该方法在WikiText-103上以极少的参数(0.00124%的开销)实现了7.2%的困惑度提升,以及1.93倍的收敛加速。

0 人收藏 0 人点赞
#transformer-architecture

Motif-Video 2B:技术报告

Hugging Face Daily Papers · 2026-04-14 缓存

# 论文页面 - Motif-Video 2B:技术报告 来源:[https://huggingface.co/papers/2604.16503](https://huggingface.co/papers/2604.16503) 作者:、、、、、、、、、、、、、、、、、、、、、 ## 摘要 Motif-Video 2B 采用共享交叉注意力与三段式主干的专用架构,以及高效训练方法,在显著降低参数量和训练数据用量的同时,实现了高质量文本到视频生成。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈