next-token-prediction

#next-token-prediction

GEAR：引导式端到端自回归图像合成

Hugging Face Daily Papers ↗ · 5天前缓存

GEAR提出了一种通过表示对齐共同训练向量量化分词器和自回归生成器的方法，实现端到端训练，在ImageNet gFID上相比强基线实现高达10倍的收敛速度提升。

0 人收藏 0 人点赞

#next-token-prediction

从离散词元到连续状态：大型语言模型作为世界模型的特例及其超越之路

arXiv cs.CL ↗ · 6天前缓存

本文通过观点论证，指出大型语言模型并非独立于世界模型的新范式，而是世界模型的一种退化特例。文章提出了一条从下一词元预测到潜空间架构（如JEPA）的连续频谱，并探讨了该路径上数据和架构层面的挑战。

0 人收藏 0 人点赞

#next-token-prediction

@AlphaSignalAI: https://x.com/AlphaSignalAI/status/2069424192274252094

X AI KOLs Timeline ↗ · 2026-06-23 缓存

微软的NextLat引入了一种训练目标，它奖励信念状态表示，而不是仅仅依赖于下一个词预测，从而推动模型向紧凑的世界模型发展，以实现更好的泛化。

0 人收藏 0 人点赞

#next-token-prediction

@ben_burtenshaw: https://x.com/ben_burtenshaw/status/2067615361428545566

X AI KOLs Timeline ↗ · 2026-06-18 缓存

一份关于监督微调（SFT）训练AI代理的详细教程，完全基于纯PyTorch从零构建，使用Qwen3-0.6B模型，解释了下一个词元预测和标签掩码的机制。

0 人收藏 0 人点赞

#next-token-prediction

@freeman1266: 不懂数学，也能看懂大多数 AI 论文——只要理解这条链路： token → embedding → 位置编码 → attention → FFN → 残差流 → next-token prediction LLM 本质上是把 Transf…

X AI KOLs Timeline ↗ · 2026-06-15 缓存

一条中文科普推文，用直观方式解释了LLM（大语言模型）的核心链路：从token、embedding、位置编码、attention、FFN到残差流和next-token prediction，帮助非数学背景读者理解AI论文。

0 人收藏 0 人点赞

#next-token-prediction

@samsja19: 非常激动人心的工作，旨在弥合强化学习与中期/预训练之间的差距。你可以从环境中学习，超越奖励信号……

X AI KOLs Following ↗ · 2026-06-10 缓存

一种名为ECHO的新方法通过在使用工具调用输出上进行下一个词预测，从环境中学习超越奖励信号，将世界建模与代理行为相结合，从而弥合了强化学习与预训练之间的差距。

0 人收藏 0 人点赞

#next-token-prediction

时间序列即语言：面向通用时间序列基础模型的通用分词器

arXiv cs.LG ↗ · 2026-06-10 缓存

本文提出UniTok，一种将连续时间序列转化为离散标记的通用分词器，以及UniTok-FM，一个基于下一标记预测预训练的基础模型。该模型支持零样本和提示增强预测，以及通过无需训练的上下文推理实现少样本生成和分类——这是以往工作未能实现的能力。

0 人收藏 0 人点赞

#next-token-prediction

@Hesamation: 3Blue1Brown 的新视频解释了为什么每个LLM实际上都是一台压缩机器。每个人都把预训练描述为“下一个...”

X AI KOLs Timeline ↗ · 2026-06-08 缓存

3Blue1Brown 的新视频解释了LLM本质上是压缩机器，将下一个词预测与人类知识的高效编码联系起来，从而带来更好的抽象和推理能力。

0 人收藏 0 人点赞

#next-token-prediction

外部观察者的必要性：形式化充分性差距——混合可识别性与序列模型中上下文基础的数学扩展

arXiv cs.CL ↗ · 2026-05-27 缓存

本文形式化了下个token预测中的充分性差距，证明即使理想的序列模型在文本前缀不足以统计潜在情况时，也可能变得过于自信。它提出了一种外部观察者机制来减少但无法消除这一差距。

0 人收藏 0 人点赞

#next-token-prediction

下一个词元预测将我们带向何方？

Hacker News Top ↗ · 2026-05-27 缓存

本文批判性地审视了AI至上主义者如何通过下一个词元预测来庆祝人类劳动的被淘汰，以及这种态度对社会经济构成的风险，尤其是对弱势群体的影响。

0 人收藏 0 人点赞

#next-token-prediction

下一个令牌预测何时有用？边际化、遍历性、混合可识别性、局部充分性、RAG、工具与编程

arXiv cs.CL ↗ · 2026-05-25 缓存

本文区分了语言建模中常被混淆的三个概率对象——完整条件语言过程、边际纯文本法则和模型诱导分布——并分析了下一个令牌预测有用的条件，将 RAG 和工具解释为条件充分性设备。

0 人收藏 0 人点赞

#next-token-prediction

@pallavishekhar_: https://x.com/pallavishekhar_/status/2058460434035060758

X AI KOLs Timeline ↗ · 2026-05-24 缓存

解释大型语言模型实际所做的工作（下一个Token预测），以及为什么即使出错时它们听起来也很有信心。提供了一种心智模型和验证检查清单，用于安全使用LLM。

0 人收藏 0 人点赞

#next-token-prediction

吐槽：别再说什么LLM只是“下一个词预测器”了。

Reddit r/singularity ↗ · 2026-05-17

对LLM“只是下一个词预测器”这一过于简单化的说法提出批判，认为大规模预测会诱导出有用的表示和能力，并且这种轻率的否定混淆了目标与学习系统。

0 人收藏 0 人点赞

#next-token-prediction

基于自回归序列模型的条件属性估计

arXiv cs.AI ↗ · 2026-05-15 缓存

本文介绍了条件属性变换器（Conditional Attribute Transformers），一种联合估计条件概率和属性值的方法，能够在单次前向传播中实现信用分配、反事实分析和可引导生成。

0 人收藏 0 人点赞

#next-token-prediction

ATLAS：智能体还是隐式视觉推理？一个词足矣

Hugging Face Daily Papers ↗ · 2026-05-14 缓存

ATLAS提出了一种视觉推理框架，该框架通过功能标记将智能体操作和隐式表示相结合，实现了通过下一个标记预测和强化学习进行高效训练，同时避免了中间图像的生成。

0 人收藏 0 人点赞

#next-token-prediction

TPA: 用于检测RAG中幻觉的下一个令牌概率归因

arXiv cs.CL ↗ · 2026-04-20 缓存

TPA提出了一种新颖的方法，通过将下一个令牌概率归因于七个不同的源头（查询、RAG上下文、过去令牌、自身令牌、FFN、最终LayerNorm、初始嵌入），并按词性标签聚合，来检测RAG系统中的幻觉。该方法在包括Llama2、Llama3、Mistral和Qwen在内的五个大语言模型上实现了最先进的性能。

0 人收藏 0 人点赞

next-token-prediction

提交意见反馈