标签
微软的NextLat引入了一种训练目标,它奖励信念状态表示,而不是仅仅依赖于下一个词预测,从而推动模型向紧凑的世界模型发展,以实现更好的泛化。
一份全面的免费指南,从第一性原理解释LLM,涵盖令牌、Transformer、注意力机制、微调和本地部署。
Jurafsky和Martin的《Speech and Language Processing》教科书第三版于2026年1月发布,其中对Transformers进行了清晰解释,并包括ASR、TTS和DPO等新章节的更新。
一条推文重点介绍了朱拉夫斯基和马丁教科书中的Transformer架构章节,赞扬其对自注意力、多头注意力及相关机制清晰且数学基础扎实的解释。
提出距离自适应表示(DAR),该方法对远距离token降低键值维度,同时保留附近token的全维度,在不损失性能的前提下提升KV缓存效率。
此前在Google工作的Noam Shazeer——transformer和MoE的关键研究者——将加入OpenAI,担任架构研究负责人。
这篇博客文章介绍了一种基准测试方法,用于评估开放模型在代理编程任务上的表现,不仅关注准确性,还关注代理过程的效率。它提供了一个使用 pi coding agent 的可定制工具框架,并在不同模型和库版本上进行测试。
微软研究院提出Next-Latent Prediction (NextLat)方法,一种自监督学习方法,训练变换器预测自身下一个潜在状态,从而形成用于推理和规划的紧凑世界模型,并通过自推测解码实现高达3.3倍的推理加速。
本文对深度Transformer使用有界深度上下文无关文法建模层次结构的能力进行了理论分析,构建了显式的位置注意力Transformer,将文法状态编码到线性可分的子空间中。
MorphStrata提出了一种层特定随机噪声注入策略,用于在移动目标防御框架中生成多样化的学生模型,以增强时间序列预测的对抗鲁棒性,在BIM攻击下实现了高达97.97%的RMSE改进,且训练开销极低。
本文提出,Transformer中的KV缓存充当了记忆化结论的笔记本,使得无需完全重计算即可进行精确编辑和组合。该方法在保持跨模型规模决策等价性的同时,实现了显著的延迟降低。
论文揭示了基于transformer的推理模型(TRMs)中的潜在推理实际上充当了策略改进算子,并提出了一种算法,将学习和推理效率提升高达18倍。
本文介绍了RecurrReason,这是一个难度可控的基准测试,包含四个符号逻辑谜题,用于评估序列模型中的多步推理能力。在T5和GPT-2上的微调实验表明,架构比规模更能决定成功,且预训练迁移依赖于局部转移结构。
本文训练了一个两层Transformer编码器,利用Frobenius迹将有理椭圆曲线按秩分类,准确率超过99%。机械可解释性揭示该模型学习了Mestre-Nagao启发式方法,并将注意力集中在素数位置上,表明Transformer能够学习数论算法。
本研究探讨了利用皮肤电活动、心率和皮肤温度等生理数据,通过机器学习模型预测考试结果,发现深度学习方法与随机森林等简单模型均能有效发挥作用。
LoopCoder-v2 提出了并行循环变换器(Parallel Loop Transformers,PLT),用于在代码生成中实现高效的测试时计算扩展,证明两次循环能带来显著增益,而更多循环则导致收益递减和位置错位成本。
这个帖子认为,标准Transformer存在一个拓扑缺陷:一旦状态表示到达顶层,它们就无法随时间更新信念,随着层数增加导致崩溃。
对Transformer架构在大型语言模型之外广泛影响的反思,包括对语言学、遗传学和因果建模的潜在影响,并将其意义与哈伯-博世法相提并论。
本文提出了一种面向低资源阿尔及利亚方言社交媒体内容的端到端混合谣言检测框架,通过结合Transformer嵌入和经典分类器,达到了0.84的F1分数。