InsightTok：在离散标记化中提升文本与人脸保真度以改进自回归图像生成

Hugging Face Daily Papers 2026/05/14 00:00 论文

摘要

InsightTok 引入内容感知的感知损失，改进离散视觉标记化以更好地重建文本和人脸，从而提升自回归图像生成质量。

文本和人脸是视觉生成中最具感知显著性且实际最重要的模式之一，然而基于离散标记化的自回归生成器在处理它们时仍面临挑战。核心瓶颈在于标记器：激进的下采样和量化常常丢弃保留可读字形和独特面部特征所需的细粒度结构。我们将这一差距归因于标准离散标记器目标与文本可读性和面部保真度的弱对齐——这些目标通常在均匀压缩多样内容的同时优化通用重建。为解决此问题，我们提出InsightTok，一个简单而有效的离散视觉标记化框架，通过局部化的、内容感知的感知损失来增强文本和人脸保真度。凭借紧凑的16k码本和16倍下采样率，InsightTok在文本和人脸重建上显著优于先前的标记器，且不牺牲通用重建质量。这些收益一致地迁移到InsightAR的自回归图像生成中，生成具有更清晰文本和更忠实面部细节的图像。总体而言，我们的结果凸显了在标记器训练中采用专门监督以推动离散图像生成的潜力。

查看原文

查看缓存全文

缓存时间: 2026/05/18 02:23

论文页面 - InsightTok: 通过离散分词提升文本与人脸保真度，实现自回归图像生成

来源: https://huggingface.co/papers/2605.14333 发布于 5月14日

#2 当日论文 (https://huggingface.co/papers/date/2026-05-18) 作者:

摘要

InsightTok 通过基于内容感知的感知损失改进了离散视觉分词，提升了文本和人脸重建效果，从而增强了自回归图像生成的质量。

文本和人脸是视觉生成中最具感知显著性且实践上最重要的模式之一，但它们对于建立在离散分词基础上的自回归生成器 (https://huggingface.co/papers?q=autoregressive%20generators) 仍然具有挑战性。一个核心瓶颈在于分词器 (https://huggingface.co/papers?q=tokenizer)：激进的下采样 (https://huggingface.co/papers?q=downsampling) 和量化往往会丢弃保留可读字形和独特面部特征所需的精细结构。我们将这一差距归因于标准离散分词器目标 (https://huggingface.co/papers?q=discrete-tokenizer%20objectives) 与文本可读性 (https://huggingface.co/papers?q=text%20legibility) 和面部保真度 (https://huggingface.co/papers?q=facial%20fidelity) 的对齐较弱，因为这些目标通常优化通用重建，同时均匀地压缩多样化的内容。为了解决这个问题，我们提出了 InsightTok，一个简单而有效的离散视觉分词 (https://huggingface.co/papers?q=discrete%20visual%20tokenization) 框架，通过局部化的、内容感知的感知损失 (https://huggingface.co/papers?q=perceptual%20losses) 来增强文本和人脸保真度。凭借一个紧凑的 16k 码本 (https://huggingface.co/papers?q=codebook) 和 16 倍下采样 (https://huggingface.co/papers?q=downsampling) 率，InsightTok 在文本和人脸重建上显著优于之前的分词器 (https://huggingface.co/papers?q=tokenizer)，且不牺牲通用重建质量。这些增益一致地转移到 InsightAR 的自回归图像生成 (https://huggingface.co/papers?q=autoregressive%20image%20generation) 中，生成具有更清晰文本和更忠实面部细节的图像。总体而言，我们的结果突显了在分词器 (https://huggingface.co/papers?q=tokenizer) 训练中采用专门监督以推进离散图像生成的潜力。

查看 arXiv 页面 (https://arxiv.org/abs/2605.14333) 查看 PDF (https://arxiv.org/pdf/2605.14333) GitHub9 (https://github.com/LeapLabTHU/InsightTok) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.14333)

在你的 agent 中获取这篇论文:

hf papers read 2605\.14333

没有最新的 CLI? curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.14333 即可从本页链接。

引用此论文的数据集 0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.14333 即可从本页链接。

引用此论文的 Spaces 0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.14333 即可从本页链接。

包含此论文的收藏 0

没有收藏包含此论文

将这篇论文添加到一个收藏 (https://huggingface.co/new-collection) 中即可从本页链接。

相似文章

(1D) 有序词元实现高效测试时搜索

Hugging Face Daily Papers

# 论文页面 - (1D) 有序词元实现高效测试时搜索来源：[https://huggingface.co/papers/2604.15453](https://huggingface.co/papers/2604.15453) ## 摘要具有“粗到细”词元结构的自回归模型在测试时扩展上表现更佳，并在与图文验证器结合后，实现无需训练的文本到图像生成。 [词元化](https://huggingface.co/papers?q=Tokenization) 是自回归（AR）生成模型的关键组件，将原始

随流而动：文本到图像模型中文本词元间的信息流动

arXiv cs.CL

本文研究了文本到图像模型中语义信息在文本词元间的分布情况，发现信息集中程度和跨条目交互显著影响图像生成的语义对齐。作者采用修补技术证明，在编码阶段进行简单干预即可提升对齐质量。

TIPSv2：以更强的块-文本对齐推进视觉-语言预训练

Hugging Face Daily Papers

# 论文页面 - TIPSv2：以更强的块-文本对齐推进视觉-语言预训练来源：[https://huggingface.co/papers/2604.12012](https://huggingface.co/papers/2604.12012) 发布时间：4 月 13 日 · 提交者 [https://huggingface.co/bingyic](https://huggingface.co/bingyic) [![](https://huggingface.co/avatars/05be62f5927b8586ef7cb927d47dcd83.svg)](https://huggingface.co/bingyic) [bingyi](https://huggingface.co/bingyic) 于 4 月 20 日作者：，，，，，，，，，，，，，，，，，## 摘要

随机分词法提高模型鲁棒性

arXiv cs.CL

本论文证明了使用随机分词而非确定性标准分词来训练大型语言模型，可以显著提升模型对对抗攻击和随机扰动的鲁棒性。这种改进在预训练、微调和上下文学习阶段都有表现，且不会增加推理成本。

FaithfulFaces：用于文本到视频生成的姿态保真面部身份保留

Hugging Face Daily Papers

FaithfulFaces 是一种新的文本到视频生成框架，通过姿态共享对齐和欧拉角嵌入，在姿态变化和遮挡情况下保持面部身份的一致性。

论文页面 - InsightTok: 通过离散分词提升文本与人脸保真度，实现自回归图像生成

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的收藏 0

相似文章

(1D) 有序词元实现高效测试时搜索

随流而动：文本到图像模型中文本词元间的信息流动

TIPSv2：以更强的块-文本对齐推进视觉-语言预训练

随机分词法提高模型鲁棒性

FaithfulFaces：用于文本到视频生成的姿态保真面部身份保留

提交意见反馈