(1D) 有序词元实现高效测试时搜索

Hugging Face Daily Papers 2026/04/16 00:00 论文

摘要

# 论文页面 - (1D) 有序词元实现高效测试时搜索来源：[https://huggingface.co/papers/2604.15453](https://huggingface.co/papers/2604.15453) ## 摘要具有“粗到细”词元结构的自回归模型在测试时扩展上表现更佳，并在与图文验证器结合后，实现无需训练的文本到图像生成。 [词元化](https://huggingface.co/papers?q=Tokenization) 是自回归（AR）生成模型的关键组件，将原始

词元化是自回归（AR）生成模型的核心环节，它将原始数据转化为更易建模的单元。通常，词元描述局部信息，如图像中的像素区域或文本中的子词片段，而 AR 生成按固定顺序预测这些词元。一个值得探讨的问题是：词元结构是否会影响通过测试时搜索引导生成的能力——即在多个候选生成中探索并由验证器评估。我们以图像生成为实验平台，假设近期出现的具有“粗到细”结构的一维有序词元器，比传统二维网格结构更易于搜索。其根本原因在于，粗到细序列的中间状态携带语义信息，验证器可对其可靠评估，从而在生成过程中实现有效引导。通过受控实验，我们发现基于粗到细有序词元训练的 AR 模型，在测试时扩展行为上优于基于网格的对应模型。此外，得益于有序结构，我们证明仅对词元序列进行纯测试时搜索（即无需训练 AR 模型），在图文验证器引导下即可完成无需训练的文本到图像生成。更进一步，我们系统研究了经典搜索算法（best-of-N、束搜索、前瞻搜索）与不同词元结构的交互，以及不同验证器与 AR 先验的作用。实验结果揭示了词元结构对推理时可扩展性的影响，并为 AR 模型的测试时扩展提供了实用指导。

查看原文

查看缓存全文

缓存时间: 2026/04/21 07:21

论文页面 - (1D) 有序 Token 实现高效测试时搜索

来源：https://huggingface.co/papers/2604.15453

摘要

具有“粗到细”token 结构的自回归模型在测试时扩展性上表现更佳，并可配合图文验证器实现无需训练的文生图。

Tokenization 是自回归（AR）生成模型的核心组件，它将原始数据转化为更易建模的单元。常见做法是让 token 描述局部信息，例如图像中的像素块或文本中的子词，AR 生成按固定顺序预测这些 token。一个值得探讨的问题是：token 结构是否会影响“测试时搜索”（test-time search）——即通过验证器评估多条候选生成结果并择优——的引导能力。我们以图像生成为实验场景，假设近期出现的“1D 有序 tokenizer”所具备的粗到细结构比传统 2D 网格结构更易于搜索。原因在于，粗到细序列的中间状态携带语义信息，验证器可对其可靠打分，从而在生成过程中实现有效引导。对照实验表明，基于粗到细有序 token 训练的 AR 模型，其测试时扩展行为优于基于网格的模型。此外，得益于有序结构，我们证明纯测试时搜索（即完全不训练 AR 模型，仅靠token 序列搜索）在图文验证器指导下即可实现无需训练的文生图。进一步，我们系统研究了经典搜索算法（best-of-N、beam search、lookahead search）与不同 token 结构的交互，以及不同验证器与 AR 先验的作用。结果凸显 token 结构对推理时可扩展性的影响，并为 AR 模型的测试时扩展提供实用指南。

查看 arXiv 页面 PDF 项目主页 GitHub 加入收藏

在智能体中阅读该论文：
hf papers read 2604.15453

还没装最新 CLI？
curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型关联

在模型 README.md 中引用 arxiv.org/abs/2604.15453 即可在此显示。

引用该论文的数据集 0

暂无数据集关联

在数据集 README.md 中引用 arxiv.org/abs/2604.15453 即可在此显示。

引用该论文的 Spaces 0

暂无 Space 关联

在 Space README.md 中引用 arxiv.org/abs/2604.15453 即可在此显示。

(1D) 有序词元实现高效测试时搜索

论文页面 - (1D) 有序 Token 实现高效测试时搜索

摘要

引用该论文的模型 0

引用该论文的数据集 0

引用该论文的 Spaces 0

收录该论文的合集 1

相似文章

从二维网格到一维标记：改革多模态图像融合的共享表示

InsightTok：在离散标记化中提升文本与人脸保真度以改进自回归图像生成

Compute Optimal Tokenization (2分钟阅读)

连续性与序数性的重要性：约束时间序列令牌以利用大语言模型进行有效时间序列分析

基于时间冗余掩蔽和潜在修补的自适应令牌化 [R]

提交意见反馈