标签
本文提出UniTok,一种将连续时间序列转化为离散标记的通用分词器,以及UniTok-FM,一个基于下一标记预测预训练的基础模型。该模型支持零样本和提示增强预测,以及通过无需训练的上下文推理实现少样本生成和分类——这是以往工作未能实现的能力。
3Blue1Brown 的新视频解释了LLM本质上是压缩机器,将下一个词预测与人类知识的高效编码联系起来,从而带来更好的抽象和推理能力。
本文形式化了下个token预测中的充分性差距,证明即使理想的序列模型在文本前缀不足以统计潜在情况时,也可能变得过于自信。它提出了一种外部观察者机制来减少但无法消除这一差距。
本文批判性地审视了AI至上主义者如何通过下一个词元预测来庆祝人类劳动的被淘汰,以及这种态度对社会经济构成的风险,尤其是对弱势群体的影响。
本文区分了语言建模中常被混淆的三个概率对象——完整条件语言过程、边际纯文本法则和模型诱导分布——并分析了下一个令牌预测有用的条件,将 RAG 和工具解释为条件充分性设备。
解释大型语言模型实际所做的工作(下一个Token预测),以及为什么即使出错时它们听起来也很有信心。提供了一种心智模型和验证检查清单,用于安全使用LLM。
对LLM“只是下一个词预测器”这一过于简单化的说法提出批判,认为大规模预测会诱导出有用的表示和能力,并且这种轻率的否定混淆了目标与学习系统。
本文介绍了条件属性变换器(Conditional Attribute Transformers),一种联合估计条件概率和属性值的方法,能够在单次前向传播中实现信用分配、反事实分析和可引导生成。
ATLAS提出了一种视觉推理框架,该框架通过功能标记将智能体操作和隐式表示相结合,实现了通过下一个标记预测和强化学习进行高效训练,同时避免了中间图像的生成。
TPA提出了一种新颖的方法,通过将下一个令牌概率归因于七个不同的源头(查询、RAG上下文、过去令牌、自身令牌、FFN、最终LayerNorm、初始嵌入),并按词性标签聚合,来检测RAG系统中的幻觉。该方法在包括Llama2、Llama3、Mistral和Qwen在内的五个大语言模型上实现了最先进的性能。