(1D) 有序词元实现高效测试时搜索

Hugging Face Daily Papers 论文

摘要

# 论文页面 - (1D) 有序词元实现高效测试时搜索 来源:[https://huggingface.co/papers/2604.15453](https://huggingface.co/papers/2604.15453) ## 摘要 具有“粗到细”词元结构的自回归模型在测试时扩展上表现更佳,并在与图文验证器结合后,实现无需训练的文本到图像生成。 [词元化](https://huggingface.co/papers?q=Tokenization) 是自回归(AR)生成模型的关键组件,将原始

词元化是自回归(AR)生成模型的核心环节,它将原始数据转化为更易建模的单元。通常,词元描述局部信息,如图像中的像素区域或文本中的子词片段,而 AR 生成按固定顺序预测这些词元。一个值得探讨的问题是:词元结构是否会影响通过测试时搜索引导生成的能力——即在多个候选生成中探索并由验证器评估。我们以图像生成为实验平台,假设近期出现的具有“粗到细”结构的一维有序词元器,比传统二维网格结构更易于搜索。其根本原因在于,粗到细序列的中间状态携带语义信息,验证器可对其可靠评估,从而在生成过程中实现有效引导。 通过受控实验,我们发现基于粗到细有序词元训练的 AR 模型,在测试时扩展行为上优于基于网格的对应模型。此外,得益于有序结构,我们证明仅对词元序列进行纯测试时搜索(即无需训练 AR 模型),在图文验证器引导下即可完成无需训练的文本到图像生成。更进一步,我们系统研究了经典搜索算法(best-of-N、束搜索、前瞻搜索)与不同词元结构的交互,以及不同验证器与 AR 先验的作用。实验结果揭示了词元结构对推理时可扩展性的影响,并为 AR 模型的测试时扩展提供了实用指导。
查看原文
查看缓存全文

缓存时间: 2026/04/21 07:21

论文页面 - (1D) 有序 Token 实现高效测试时搜索

来源:https://huggingface.co/papers/2604.15453

摘要

具有“粗到细”token 结构的自回归模型在测试时扩展性上表现更佳,并可配合图文验证器实现无需训练的文生图。

Tokenization 是自回归(AR)生成模型的核心组件,它将原始数据转化为更易建模的单元。常见做法是让 token 描述局部信息,例如图像中的像素块或文本中的子词,AR 生成按固定顺序预测这些 token。一个值得探讨的问题是:token 结构是否会影响“测试时搜索”(test-time search)——即通过验证器评估多条候选生成结果并择优——的引导能力。我们以图像生成为实验场景,假设近期出现的“1D 有序 tokenizer”所具备的粗到细结构比传统 2D 网格结构更易于搜索。原因在于,粗到细序列的中间状态携带语义信息,验证器可对其可靠打分,从而在生成过程中实现有效引导。对照实验表明,基于粗到细有序 token 训练的 AR 模型,其测试时扩展行为优于基于网格的模型。此外,得益于有序结构,我们证明纯测试时搜索(即完全不训练 AR 模型,仅靠token 序列搜索)在图文验证器指导下即可实现无需训练的文生图。进一步,我们系统研究了经典搜索算法(best-of-Nbeam searchlookahead search)与不同 token 结构的交互,以及不同验证器与 AR 先验的作用。结果凸显 token 结构对推理时可扩展性的影响,并为 AR 模型的测试时扩展提供实用指南。

查看 arXiv 页面 PDF项目主页GitHub加入收藏

在智能体中阅读该论文:
hf papers read 2604.15453

还没装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型关联

在模型 README.md 中引用 arxiv.org/abs/2604.15453 即可在此显示。

引用该论文的数据集 0

暂无数据集关联

在数据集 README.md 中引用 arxiv.org/abs/2604.15453 即可在此显示。

引用该论文的 Spaces 0

暂无 Space 关联

在 Space README.md 中引用 arxiv.org/abs/2604.15453 即可在此显示。

收录该论文的合集 1

相似文章

从二维网格到一维标记:改革多模态图像融合的共享表示

Hugging Face Daily Papers

本文提出了一种多模态图像融合方法,该方法使用来自预训练图像标记器的一维标记接口,通过选择性标记编辑(STE)来增强全局外观一致性,同时保留局部细节。在四个基准上的实验表明,该方法在全局一致性和局部保真度方面均达到了最先进性能。

Compute Optimal Tokenization (2分钟阅读)

TLDR AI

本文通过训练近1300个模型,系统推导了压缩感知的神经缩放定律,证明了广泛使用的每参数20个词元的启发式方法是由特定分词器造成的。作者提出了基于字节的分词器无关缩放定律,为跨多样语言和模态的计算高效训练提供了新框架。

基于时间冗余掩蔽和潜在修补的自适应令牌化 [R]

Reddit r/MachineLearning

本文提出了一种自适应视频令牌化方法,利用潜在空间中的时间冗余动态分配令牌,实现高效压缩,无需辅助网络。所提出的潜在修补变压器(Latent Inpainting Transformer)重建被丢弃的位置,相比ElasticTok-CV实现31倍加速,相比InfoTok实现2倍加速。