标签
一个涵盖LLM内部原理的全面15部分系列,从分词到服务部署,基于Gemma 4 12B的实际配置。
OneRank提出了一种原生Transformer的多任务排序框架,该框架将特征编码与预测相结合,以减少任务间干扰并提升推荐系统中的排序性能。
本文提供了大型语言模型中Transformer架构的可视化指南,涵盖自注意力、因果自注意力、掩码多头注意力以及输出层,并附有逐步解释和示例。
本文提出一个Jacobian-PCA-Grassmann框架,用于分析混合专家(MoE)Transformer中专家专业化的几何结构。研究发现,专家表现出强烈的功能去相关,而其表示存在重叠,并且路由稀疏性显著影响这一几何结构。
本文证明,余弦相似度作为评估大语言模型中层重要性的指标效果不佳,并提出使用层移除后实际准确率下降作为更稳健的度量标准。
本文提出了一种理论框架,解释 Transformer 组件(注意力机制、残差连接、归一化)如何源于使用径向-切线随机微分方程(Radial-Tangential SDEs)的球面状态估计问题。
本文解释了大语言模型中 KV Cache 的概念,详细阐述了其通过存储和复用键值对以避免推理过程中的冗余计算,从而优化文本生成的原理。
DeepSeek 发表了一篇论文,介绍了 mHC(流形约束超连接,Manifold-Constrained Hyper-Connections),这是一种对 Transformer 架构的根本性重写,通过用数学约束的多流路径替换标准残差连接,来稳定大型模型。
一段40分钟的讲解通过白板图完整介绍了Transformer架构,并演示了如何在Vim中使用C语言进行实际实现。
一位22岁创业者据称通过开源项目揭开了Anthropic Claude Mythos模型的架构黑箱,并推测其采用了循环深度Transformer设计而非单纯扩大参数规模。
ResBM提出了一种基于Transformer的架构,采用残差编码器-解码器瓶颈用于流水线并行训练,在保持收敛的同时实现了128倍激活压缩。该工作通过减少阶段间通信开销,推进了去中心化、互联网级分布式训练的发展。
一篇介绍Three-Phase Transformer(3PT)的研究论文,该模型将特斯拉的多相几何应用于Transformer架构,将残差流组织成三个120°偏移的相位。该方法在WikiText-103上以极少的参数(0.00124%的开销)实现了7.2%的困惑度提升,以及1.93倍的收敛加速。
# 论文页面 - Motif-Video 2B:技术报告 来源:[https://huggingface.co/papers/2604.16503](https://huggingface.co/papers/2604.16503) 作者:、、、、、、、、、、、、、、、、、、、、、 ## 摘要 Motif-Video 2B 采用共享交叉注意力与三段式主干的专用架构,以及高效训练方法,在显著降低参数量和训练数据用量的同时,实现了高质量文本到视频生成。