Sumi:从头训练的开放均匀扩散语言模型

Hugging Face Daily Papers 论文

摘要

Sumi 是一个 7B 参数的均匀扩散语言模型,在 1.5T token 上从头预训练,在知识和推理任务上取得了有竞争力的性能,同时完全开源,发布了模型权重和训练方案。

扩散模型已成为自回归模型的一个有前景的替代方案。其中,均匀扩散语言模型(UDLM)允许任何 token 在任意步骤被更新,原则上能够实现更灵活的生成。然而,目前还没有 UDLM 在大参数规模和大 token 预算下从头预训练。自回归建模和掩码扩散建模已经拥有大规模可用的模型,供社区研究和构建基础;而均匀扩散模型尚无此类资源。一个从头预训练的大规模 UDLM 可以为研究扩展行为、生成动态、可控性以及与已有自回归和掩码扩散模型的权衡提供干净的参考基准。为此,我们推出了 Sumi(日语中意为“墨水”),这是一个完全开放的 7B 均匀扩散语言模型,在 1.5T token 上从头预训练。Sumi 在与可比 token 预算训练的自回归模型相比,在知识、推理和编程基准上表现出竞争力,但在常识基准上表现较弱,这很可能与我们的数据混合中教育类数据占比较高有关。我们发布了模型权重、检查点和完整的训练方案,包括在公开语料库上的数据混合的完整说明。我们希望这次发布能让社区研究原生均匀扩散在大规模下的表现,并推动对其尚不充分理解的方面的研究。
查看原文
查看缓存全文

缓存时间: 2026/06/18 03:55

论文页面 - Sumi: 从头训练的开放均匀扩散语言模型

来源:https://huggingface.co/papers/2606.19005

摘要

一个从头预训练的大规模均匀扩散语言模型,在知识和推理任务上展现出具有竞争力的性能,同时在常识推理方面与自回归模型相比呈现出差异。

扩散模型(https://huggingface.co/papers?q=Diffusion%20models)已成为自回归模型(https://huggingface.co/papers?q=autoregressive%20models)的一种有前景的替代方案。其中,均匀扩散语言模型(https://huggingface.co/papers?q=uniform%20diffusion%20language%20models)(UDLM)允许在任何步骤更新任何 token,原则上能够实现更灵活的生成。然而,目前还没有一个 UDLM 是从头开始,在大的参数规模和大的 token 预算(https://huggingface.co/papers?q=token%20budget)下进行预训练的。自回归建模和掩码扩散建模已经拥有大规模的可供社区研究和构建的模型,而均匀扩散模型还没有。一个从头预训练的大规模 UDLM 将提供一个清晰的参考点,用于研究扩展行为、生成动态(https://huggingface.co/papers?q=generation%20dynamics)、可控性(https://huggingface.co/papers?q=controllability)以及与已有自回归和掩码扩散模型(https://huggingface.co/papers?q=diffusion%20models)之间的权衡。为此,我们推出了 Sumi(日语中“墨”的意思),一个完全开放的 7B 均匀扩散语言模型,从零开始在 1.5T token 上进行了预训练。Sumi 在知识、推理和编程基准测试中,与在相似 token 预算(https://huggingface.co/papers?q=token%20budget)下训练的自回归模型(https://huggingface.co/papers?q=autoregressive%20models)相比表现相当,但在常识基准上表现欠佳,而我们的以教育为主的混合数据(https://huggingface.co/papers?q=data%20mixture)可能是造成这一结果的一个原因。我们公开了模型权重(https://huggingface.co/papers?q=model%20weights)、检查点以及完整的训练方案(https://huggingface.co/papers?q=training%20recipe),包括对公开语料上混合数据(https://huggingface.co/papers?q=data%20mixture)的完整说明。我们希望此次发布能让社区研究大规模原生均匀扩散,并推动对其尚未充分理解的方面的研究。

查看 arXiv 页面(https://arxiv.org/abs/2606.19005)查看 PDF(https://arxiv.org/pdf/2606.19005)项目页面(https://www.nlp.ecei.tohoku.ac.jp/projects/sumi/)GitHub1(https://github.com/tohoku-nlp/sumi)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.19005)

在您的 agent 中获取此论文:

hf papers read 2606.19005

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型1

tohoku-nlp/sumi-7b Text Generation• 8B• 约2小时前更新(https://huggingface.co/tohoku-nlp/sumi-7b)

引用此论文的数据集0

没有数据集链接此论文

请在数据集的 README.md 中引用 arxiv.org/abs/2606.19005 以从本页链接。

引用此论文的 Spaces0

没有 Space 链接此论文

请在 Space 的 README.md 中引用 arxiv.org/abs/2606.19005 以从本页链接。

包含此论文的收藏0

没有收藏包含此论文

将此论文添加到一个收藏(https://huggingface.co/new-collection)中以从本页链接。

相似文章

UniSD:面向大型语言模型的统一自蒸馏框架

Hugging Face Daily Papers

本文提出了 UniSD,这是一种用于适应大型语言模型的统一自蒸馏框架,整合了监督可靠性、表征对齐和训练稳定性的机制。实验结果表明,UniSD 在多个基准测试中均优于基础模型和现有基线方法。

扩散语言模型:实验分析

arXiv cs.AI

一项系统性的实验分析,评估了八种最先进的扩散语言模型在多个基准测试上的表现,分析了生成质量与计算效率之间的权衡。