transformer-architecture

标签

Cards List
#transformer-architecture

我写了一个免费的15部分系列文章,讲解LLM内部原理——真实的数学、真实的张量形状、真实的硬件限制。全部基于Gemma 4 12B的实际配置。

Reddit r/LocalLLaMA · 6天前

一个涵盖LLM内部原理的全面15部分系列,从分词到服务部署,基于Gemma 4 12B的实际配置。

0 人收藏 0 人点赞
#transformer-architecture

OneRank:面向多任务推荐的统一原生Transformer排序架构

Hugging Face Daily Papers · 2026-06-15 缓存

OneRank提出了一种原生Transformer的多任务排序框架,该框架将特征编码与预测相结合,以减少任务间干扰并提升推荐系统中的排序性能。

0 人收藏 0 人点赞
#transformer-architecture

@_rohit_tiwari_: https://x.com/_rohit_tiwari_/status/2063982924714901858

X AI KOLs Timeline · 2026-06-08 缓存

本文提供了大型语言模型中Transformer架构的可视化指南,涵盖自注意力、因果自注意力、掩码多头注意力以及输出层,并附有逐步解释和示例。

0 人收藏 0 人点赞
#transformer-architecture

MoE专业化中的几何不对称性:功能去相关与表示重叠

arXiv cs.LG · 2026-05-19 缓存

本文提出一个Jacobian-PCA-Grassmann框架,用于分析混合专家(MoE)Transformer中专家专业化的几何结构。研究发现,专家表现出强烈的功能去相关,而其表示存在重叠,并且路由稀疏性显著影响这一几何结构。

0 人收藏 0 人点赞
#transformer-architecture

超越余弦相似度:重新思考大语言模型中的层相关性

arXiv cs.LG · 2026-05-15 缓存

本文证明,余弦相似度作为评估大语言模型中层重要性的指标效果不佳,并提出使用层移除后实际准确率下降作为更稳健的度量标准。

0 人收藏 0 人点赞
#transformer-architecture

RT-Transformer:将 Transformer Block 视为球面状态估计器

arXiv cs.LG · 2026-05-13 缓存

本文提出了一种理论框架,解释 Transformer 组件(注意力机制、残差连接、归一化)如何源于使用径向-切线随机微分方程(Radial-Tangential SDEs)的球面状态估计问题。

0 人收藏 0 人点赞
#transformer-architecture

@pallavishekhar_: 大语言模型中的 KV Cache,阅读链接:https://outcomeschool.com/blog/kv-cache-in-llms…

X AI KOLs Timeline · 2026-05-09 缓存

本文解释了大语言模型中 KV Cache 的概念,详细阐述了其通过存储和复用键值对以避免推理过程中的冗余计算,从而优化文本生成的原理。

0 人收藏 0 人点赞
#transformer-architecture

@simplifyinAI: DeepSeek 对 Transformer 架构进行了根本性重构。它解决了导致大规模 AI 模型崩溃的“身份危机”……

X AI KOLs Timeline · 2026-05-09

DeepSeek 发表了一篇论文,介绍了 mHC(流形约束超连接,Manifold-Constrained Hyper-Connections),这是一种对 Transformer 架构的根本性重写,通过用数学约束的多流路径替换标准残差连接,来稳定大型模型。

0 人收藏 0 人点赞
#transformer-architecture

@tetsuoai: 四十分钟的白板讲解。完整的Transformer架构。然后打开Vim并用C语言编写。

X AI KOLs Timeline · 2026-05-08 缓存

一段40分钟的讲解通过白板图完整介绍了Transformer架构,并演示了如何在Vim中使用C语言进行实际实现。

0 人收藏 0 人点赞
#transformer-architecture

@AYi_AInotes: 看完这个开源项目整个人都懵了,Anthropic藏得严严实实的Claude Mythos模型黑箱,被一个22岁的创业者扒开还全开源了 这个 22岁的AI创业小哥把Claude Mythos的黑箱给扒开了。 他猜Anthropic最新的这个…

X AI KOLs Timeline · 2026-04-19 缓存

一位22岁创业者据称通过开源项目揭开了Anthropic Claude Mythos模型的架构黑箱,并推测其采用了循环深度Transformer设计而非单纯扩大参数规模。

0 人收藏 0 人点赞
#transformer-architecture

ResBM:一种基于Transformer的新型架构,用于低带宽流水线并行训练,实现128倍激活压缩 [R]

Reddit r/MachineLearning · 2026-04-16

ResBM提出了一种基于Transformer的架构,采用残差编码器-解码器瓶颈用于流水线并行训练,在保持收敛的同时实现了128倍激活压缩。该工作通过减少阶段间通信开销,推进了去中心化、互联网级分布式训练的发展。

0 人收藏 0 人点赞
#transformer-architecture

Three-Phase Transformer

Hugging Face Daily Papers · 2026-04-15 缓存

一篇介绍Three-Phase Transformer(3PT)的研究论文,该模型将特斯拉的多相几何应用于Transformer架构,将残差流组织成三个120°偏移的相位。该方法在WikiText-103上以极少的参数(0.00124%的开销)实现了7.2%的困惑度提升,以及1.93倍的收敛加速。

0 人收藏 0 人点赞
#transformer-architecture

Motif-Video 2B:技术报告

Hugging Face Daily Papers · 2026-04-14 缓存

# 论文页面 - Motif-Video 2B:技术报告 来源:[https://huggingface.co/papers/2604.16503](https://huggingface.co/papers/2604.16503) 作者:、、、、、、、、、、、、、、、、、、、、、 ## 摘要 Motif-Video 2B 采用共享交叉注意力与三段式主干的专用架构,以及高效训练方法,在显著降低参数量和训练数据用量的同时,实现了高质量文本到视频生成。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈