transformer

#transformer

@amitiitbhu: Q × Kᵀ 告诉模型每个词与其他词的相关性。Softmax 将其转换为概率。V 提供…

X AI KOLs Timeline ↗ · 昨天缓存

一条推文解释了Transformer模型中注意力机制的核心公式：Q × Kᵀ 计算相关性，Softmax 将其转换为概率，V 提供内容，构成了现代AI的基础。

0 人收藏 0 人点赞

#transformer

@IlirAliu_: 忘掉激光雷达吧。仅需一个摄像头。实时运行且开源：一个流式3D模型，实时重建场景…

X AI KOLs Timeline ↗ · 昨天缓存

LingBot-Map 是一个开源、实时流式3D重建模型，使用单个摄像头，通过前馈几何上下文转换器以约20 FPS运行，性能优于流式和离线方法。

0 人收藏 0 人点赞

#transformer

@snowboat84: 你有没有发现，AI里模型的诞生其实相当随意？拿语言模型举例子：先是RNN，再到LSTM，某天突然说Transformer效果好就全换上，后来又拆成Encoder和Decoder，一会儿说BERT一桶浆糊，一会儿又说GPT可以有涌现能力，S…

X AI KOLs Timeline ↗ · 昨天缓存

文章讨论了AI模型诞生的随意性，提出从物理学模型中获得灵感并建立备选模型资料库，将选模型过程工程化的想法。

0 人收藏 0 人点赞

#transformer

想分享一个小成就。过去一个月我一直在白板和笔记本上涂涂画画，试图理解…

X AI KOLs Timeline ↗ · 昨天缓存

一位开发者用TypeScript从头构建了一个Transformer模型，包括自定义的自动求导引擎，并将其作为开源教育工具发布在GitHub上。

0 人收藏 0 人点赞

#transformer

@ZhihuFrontier: 半年前，一位知乎答主预测下一个Transformer将吸收循环、递归状态、稀疏路由……

X AI KOLs Timeline ↗ · 昨天缓存

一位知乎答主半年前的预测——下一个Transformer将吸收循环、递归状态、稀疏路由和潜在推理——随着Loop Engineering的推进，正变得越来越有现实意义。本文探讨了未来的Transformer架构如何演变为混合模型：将线性复杂度的层用于背景上下文，注意力机制用于精确推理，再加上更细粒度的稀疏性和原生的System 2推理。

0 人收藏 0 人点赞

#transformer

学习具有严格适当评分规则的概率滤波器

arXiv cs.LG ↗ · 2天前缓存

本文介绍了Proper Scoring Ensemble Filter (PSEF)，一种基于Transformer的贝叶斯滤波方法，通过在合成状态-观测轨迹上应用严格适当评分规则来训练分析映射。该方法在非线性、非高斯滤波任务中展现出优于传统方法和基于学习的方法的性能。

0 人收藏 0 人点赞

#transformer

理解边缘：稀疏自编码器追踪Transformer泛化的界限

arXiv cs.LG ↗ · 2天前缓存

本文提出使用稀疏自编码器检测Transformer的分布外输入，包括拼写错误和越狱提示，通过分析虚假概念激活。该方法实现了一种基于机制的微调策略，以提高LLM的鲁棒性。

0 人收藏 0 人点赞

#transformer

向LLM讲述数字：用于时间序列预测的多小波数字嵌入

arXiv cs.CL ↗ · 2天前缓存

提出TempoWave，一种即插即用的时间小波数字接口，将时间序列观测值映射为基于多小波系数的逐位嵌入，改进了基于LLM的时间序列预测，并在多个基准上达到最先进水平。

0 人收藏 0 人点赞

#transformer

PMDformer：面向长期预测的补丁均值解耦信息变换器

arXiv cs.AI ↗ · 2天前缓存

PMDformer 引入了补丁均值解耦和专用注意力机制，以改进长期时间序列预测中的形状相似性建模，在多个基准测试上优于现有方法。

0 人收藏 0 人点赞

#transformer

@FinanceYF5: 下一 token 预测是短视的。那如果 Transformer 学会预测自己的下一个隐状态呢？ Jayden Teoh提出 Next-Latent Prediction（NextLat）：一种自监督学习方法，教 Transformer 形…

X AI KOLs Following ↗ · 2天前缓存

Jayden Teoh提出Next-Latent Prediction（NextLat），一种自监督学习方法，教Transformer学习预测下一个隐状态，从而形成紧凑的世界模型，用于推理和规划，并通过自推测解码将推理速度提升3.3倍。

0 人收藏 0 人点赞

#transformer

KV缓存墙：为何固定大小内存的序列模型不断回归

Reddit r/ArtificialInteligence ↗ · 2天前

探讨了Transformer推理中KV缓存日益增长的内存瓶颈，解释了为何像Mamba和RWKV这样的固定大小内存的替代架构重新获得关注。

0 人收藏 0 人点赞

#transformer

基于微调PEGASUS的抽象摘要优化

arXiv cs.CL ↗ · 3天前缓存

本文展示了在XL-Sum英语语料库上微调PEGASUS的方法，在ROUGE评分上相比基线mT5模型取得了显著提升，达到了当前最优结果。

0 人收藏 0 人点赞

#transformer

面向金融欺诈检测的多流时序融合

arXiv cs.LG ↗ · 3天前缓存

提出用于金融欺诈检测的多流欺诈Transformer（MSFT），该模型使用Transformer独立编码交易、登录和风险事件流，并通过时间感知位置编码和门控融合进行融合，在大型数据集上实现了0.9961的AUROC。

0 人收藏 0 人点赞

#transformer

为什么累积变换能够实现外推？

arXiv cs.LG ↗ · 3天前缓存

本文研究了为何累积的、依赖于token的正交变换（如PaTH Attention中使用的以及简化版SO(2)旋转变体）能使Transformer实现长度外推。论文证明此类变换在有限步后变得不连贯，从而抑制对远距离token的注意力；同时从理论和实验上表明该机制能改善外推，但在极端上下文长度下性能最终会下降。

0 人收藏 0 人点赞

#transformer

面向可扩展多任务强化学习的大决策模型

arXiv cs.LG ↗ · 3天前缓存

本文介绍了LDM-v0，一个在来自数千个多样强化学习环境的轨迹上离线训练的大决策模型，证明了单一的Transformer策略可以在机器人、自动驾驶、库存管理、网络安全、交易和视频游戏等领域匹配特定任务策略的性能。

0 人收藏 0 人点赞

#transformer

@Phoenixyin13: 我认为这是ICML 2026里的上乘工作。传统 Transformer 的 Attention 机制，本质上是点对点匹配，把输入切成一堆 token，即离散点，然后算 Query 和 Key 的相似度，再加权 Value。这在 NLP…

X AI KOLs Timeline ↗ · 3天前缓存

介绍ICML 2026论文Functional Attention，将函数作为第一公民，用结构化线性算子替代softmax点对点相似度，解决传统Transformer处理连续函数时离散化、分辨率敏感和计算复杂度高的问题，在PDE求解、3D分割等任务上达到或超过SOTA，并具良好OOD泛化能力。

0 人收藏 0 人点赞

#transformer

@agisummitai: 演讲者聚焦：Christopher Manning 如果你用过LLM，你就用过他的研究。Christopher Manning 是……

X AI KOLs Following ↗ · 3天前缓存

Christopher Manning 作为AGI峰会的主旨演讲者受到关注，突出介绍他在自然语言处理方面的开创性研究，包括GloVe和注意力机制，以及他在Stanford的角色。

0 人收藏 0 人点赞

#transformer

高维动态旋转位置编码 [P]

Reddit r/MachineLearning ↗ · 3天前

介绍了 HDD-RoPE，这是旋转位置编码的一种扩展，它使用高维块和数据相关的旋转速率，在 TinyStories 数据集上显示出比 xPos 更快的收敛速度。

0 人收藏 0 人点赞

#transformer

@s_scardapane：《Transformer Cookbook》，作者@pentagonalize、@davidweichiang 等人。对在Transformer权重中“硬编码”算法的优美介绍……

X AI KOLs Timeline ↗ · 3天前缓存

一条推文介绍了《Transformer Cookbook》这篇论文，该论文遵循RASP论文，对在transformer权重中硬编码算法（加法、查找、分支）提供了优美的介绍。

0 人收藏 0 人点赞

#transformer

基于LLM的两阶段Transformer框架：面向有限数据的跨域轴承故障诊断

arXiv cs.LG ↗ · 4天前缓存

提出了一种知识引导的两阶段迁移学习框架，采用轻量级GPT-2风格的Transformer，用于有限数据下的跨域轴承故障诊断，在仅使用10%标记数据的情况下实现了92.61%的准确率。

0 人收藏 0 人点赞

transformer

提交意见反馈