next-token-prediction

标签

Cards List
#next-token-prediction

时间序列即语言:面向通用时间序列基础模型的通用分词器

arXiv cs.LG · 昨天 缓存

本文提出UniTok,一种将连续时间序列转化为离散标记的通用分词器,以及UniTok-FM,一个基于下一标记预测预训练的基础模型。该模型支持零样本和提示增强预测,以及通过无需训练的上下文推理实现少样本生成和分类——这是以往工作未能实现的能力。

0 人收藏 0 人点赞
#next-token-prediction

@Hesamation: 3Blue1Brown 的新视频解释了为什么每个LLM实际上都是一台压缩机器。每个人都把预训练描述为“下一个...”

X AI KOLs Timeline · 3天前 缓存

3Blue1Brown 的新视频解释了LLM本质上是压缩机器,将下一个词预测与人类知识的高效编码联系起来,从而带来更好的抽象和推理能力。

0 人收藏 0 人点赞
#next-token-prediction

外部观察者的必要性:形式化充分性差距——混合可识别性与序列模型中上下文基础的数学扩展

arXiv cs.CL · 2026-05-27 缓存

本文形式化了下个token预测中的充分性差距,证明即使理想的序列模型在文本前缀不足以统计潜在情况时,也可能变得过于自信。它提出了一种外部观察者机制来减少但无法消除这一差距。

0 人收藏 0 人点赞
#next-token-prediction

下一个词元预测将我们带向何方?

Hacker News Top · 2026-05-27 缓存

本文批判性地审视了AI至上主义者如何通过下一个词元预测来庆祝人类劳动的被淘汰,以及这种态度对社会经济构成的风险,尤其是对弱势群体的影响。

0 人收藏 0 人点赞
#next-token-prediction

下一个令牌预测何时有用?边际化、遍历性、混合可识别性、局部充分性、RAG、工具与编程

arXiv cs.CL · 2026-05-25 缓存

本文区分了语言建模中常被混淆的三个概率对象——完整条件语言过程、边际纯文本法则和模型诱导分布——并分析了下一个令牌预测有用的条件,将 RAG 和工具解释为条件充分性设备。

0 人收藏 0 人点赞
#next-token-prediction

@pallavishekhar_: https://x.com/pallavishekhar_/status/2058460434035060758

X AI KOLs Timeline · 2026-05-24 缓存

解释大型语言模型实际所做的工作(下一个Token预测),以及为什么即使出错时它们听起来也很有信心。提供了一种心智模型和验证检查清单,用于安全使用LLM。

0 人收藏 0 人点赞
#next-token-prediction

吐槽:别再说什么LLM只是“下一个词预测器”了。

Reddit r/singularity · 2026-05-17

对LLM“只是下一个词预测器”这一过于简单化的说法提出批判,认为大规模预测会诱导出有用的表示和能力,并且这种轻率的否定混淆了目标与学习系统。

0 人收藏 0 人点赞
#next-token-prediction

基于自回归序列模型的条件属性估计

arXiv cs.AI · 2026-05-15 缓存

本文介绍了条件属性变换器(Conditional Attribute Transformers),一种联合估计条件概率和属性值的方法,能够在单次前向传播中实现信用分配、反事实分析和可引导生成。

0 人收藏 0 人点赞
#next-token-prediction

ATLAS:智能体还是隐式视觉推理?一个词足矣

Hugging Face Daily Papers · 2026-05-14 缓存

ATLAS提出了一种视觉推理框架,该框架通过功能标记将智能体操作和隐式表示相结合,实现了通过下一个标记预测和强化学习进行高效训练,同时避免了中间图像的生成。

0 人收藏 0 人点赞
#next-token-prediction

TPA: 用于检测RAG中幻觉的下一个令牌概率归因

arXiv cs.CL · 2026-04-20 缓存

TPA提出了一种新颖的方法,通过将下一个令牌概率归因于七个不同的源头(查询、RAG上下文、过去令牌、自身令牌、FFN、最终LayerNorm、初始嵌入),并按词性标签聚合,来检测RAG系统中的幻觉。该方法在包括Llama2、Llama3、Mistral和Qwen在内的五个大语言模型上实现了最先进的性能。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈