text-encoder

#text-encoder

UR-BERT：通过通用罗马化和语音令牌预测实现大规模多语言TTS的文本编码器扩展

arXiv cs.CL ↗ · 13小时前缓存

UR-BERT提出了一种基于罗马化转录的文本编码器，用于大规模多语言TTS，通过使用通用罗马化和语音令牌预测目标，扩展到495种语言，以增强语音对齐和泛化到未见过的语言。

0 人收藏 0 人点赞

#text-encoder

Hugging Face Models Trending ↗ · 2026-06-03 缓存

专为ComfyUI重新打包的Ideogram-4模型，包含fp8缩放扩散模型、Qwen3VL文本编码器和FLUX VAE。

0 人收藏 0 人点赞

#text-encoder

Hugging Face Daily Papers ↗ · 2026-06-02 缓存

本文证明，文本到图像的扩散Transformer模型主要依赖文本编码器中的标记合并和词序，而非完整的上下文嵌入，表明图像模型本身能够解码复杂的语言结构。

0 人收藏 0 人点赞

#text-encoder

arXiv cs.CL ↗ · 2026-04-20 缓存

本文研究了文本到图像模型中语义信息在文本词元间的分布情况，发现信息集中程度和跨条目交互显著影响图像生成的语义对齐。作者采用修补技术证明，在编码阶段进行简单干预即可提升对齐质量。

0 人收藏 0 人点赞