标签
Flexformer提出了一种灵活的线性Transformer,使用随机傅里叶特征实现完全可学习的注意力核,在语言建模和序列分类任务中达到线性复杂度,同时匹配或超越softmax注意力的性能。
MultiHashFormer是一种基于哈希的生成式语言模型,它通过将每个词元表示为独特的哈希签名,实现了参数高效的自回归。在1亿、10亿和30亿参数规模上,该模型均优于标准Transformer语言模型,并且能够在参数不变的情况下支持多语言词汇扩展。
本文提出一个多阶段可解释框架,结合基于SHAP的词元归因、理论指导的语言特征以及LLaMA-3.1-70B-Instruct大语言模型推理,用于解释基于Transformer的语音模型在认知障碍检测中的表现,取得了良好的临床一致性及高可用性评分。
本文系统研究了如何将时间元数据结构性地嵌入到面向历史文本的命名实体识别(NER)模型中。通过采用早期或晚期融合机制注入绝对和相对时间表示的实验表明,晚期融合策略在法语和德语历史数据集上展现出更稳健的性能。
介绍LPES,一种层特定位置嵌入缩放方法,通过使用贝塞尔曲线的遗传算法为每层分配不同的缩放因子,缓解LLM中的“中间丢失”问题,无需微调或增加延迟即可实现高达11.2%的准确率提升。
Prism Transformer 用渐进式头调度替代了统一的多头注意力机制,该调度在层间逐步增加头的数量,从而在不增加参数或计算量的情况下实现从局部到全局的层级结构。在124M、354M和757M三个模型规模上,它在语言建模和零样本基准测试中始终优于标准Transformer。
本文介绍了上下文就绪 Transformer,一种循环架构,在 Transformer 块之前对 token 进行预上下文化,在匹配或超越标准 Transformer 性能的同时,实现了显著的推理加速(例如在 A100 上达到 1.7 倍),且层数更少。
斯坦福大学的CS336课程宣布开课,从零开始教授语言建模,包含密集的实践作业,涵盖分词器、Transformer、数据和对齐。
NanoEuler 是一个完全用纯 C/CUDA 从头构建的 GPT-2 规模语言模型,不依赖任何机器学习库,包括手写的前向/反向传播、字节级 BPE 分词器和训练流水线。该项目是一个教育示范,展示了 Transformer 训练背后的工程原理,可在单个 RTX 4070 上运行。
一个交互式网页,可视化了一个小型可编辑权重的Transformer,让用户实时看到权重变化如何影响预测,旨在帮助开发者理解LLM的前向传播过程。
一条推文解释了Transformer模型中注意力机制的核心公式:Q × Kᵀ 计算相关性,Softmax 将其转换为概率,V 提供内容,构成了现代AI的基础。
LingBot-Map 是一个开源、实时流式3D重建模型,使用单个摄像头,通过前馈几何上下文转换器以约20 FPS运行,性能优于流式和离线方法。
文章讨论了AI模型诞生的随意性,提出从物理学模型中获得灵感并建立备选模型资料库,将选模型过程工程化的想法。
一位开发者用TypeScript从头构建了一个Transformer模型,包括自定义的自动求导引擎,并将其作为开源教育工具发布在GitHub上。
一位知乎答主半年前的预测——下一个Transformer将吸收循环、递归状态、稀疏路由和潜在推理——随着Loop Engineering的推进,正变得越来越有现实意义。本文探讨了未来的Transformer架构如何演变为混合模型:将线性复杂度的层用于背景上下文,注意力机制用于精确推理,再加上更细粒度的稀疏性和原生的System 2推理。
本文介绍了Proper Scoring Ensemble Filter (PSEF),一种基于Transformer的贝叶斯滤波方法,通过在合成状态-观测轨迹上应用严格适当评分规则来训练分析映射。该方法在非线性、非高斯滤波任务中展现出优于传统方法和基于学习的方法的性能。
本文提出使用稀疏自编码器检测Transformer的分布外输入,包括拼写错误和越狱提示,通过分析虚假概念激活。该方法实现了一种基于机制的微调策略,以提高LLM的鲁棒性。
提出TempoWave,一种即插即用的时间小波数字接口,将时间序列观测值映射为基于多小波系数的逐位嵌入,改进了基于LLM的时间序列预测,并在多个基准上达到最先进水平。
PMDformer 引入了补丁均值解耦和专用注意力机制,以改进长期时间序列预测中的形状相似性建模,在多个基准测试上优于现有方法。
Jayden Teoh提出Next-Latent Prediction(NextLat),一种自监督学习方法,教Transformer学习预测下一个隐状态,从而形成紧凑的世界模型,用于推理和规划,并通过自推测解码将推理速度提升3.3倍。