Sumi:从头训练的开放均匀扩散语言模型
摘要
Sumi 是一个 7B 参数的均匀扩散语言模型,在 1.5T token 上从头预训练,在知识和推理任务上取得了有竞争力的性能,同时完全开源,发布了模型权重和训练方案。
查看缓存全文
缓存时间: 2026/06/18 03:55
论文页面 - Sumi: 从头训练的开放均匀扩散语言模型
来源:https://huggingface.co/papers/2606.19005
摘要
一个从头预训练的大规模均匀扩散语言模型,在知识和推理任务上展现出具有竞争力的性能,同时在常识推理方面与自回归模型相比呈现出差异。
扩散模型(https://huggingface.co/papers?q=Diffusion%20models)已成为自回归模型(https://huggingface.co/papers?q=autoregressive%20models)的一种有前景的替代方案。其中,均匀扩散语言模型(https://huggingface.co/papers?q=uniform%20diffusion%20language%20models)(UDLM)允许在任何步骤更新任何 token,原则上能够实现更灵活的生成。然而,目前还没有一个 UDLM 是从头开始,在大的参数规模和大的 token 预算(https://huggingface.co/papers?q=token%20budget)下进行预训练的。自回归建模和掩码扩散建模已经拥有大规模的可供社区研究和构建的模型,而均匀扩散模型还没有。一个从头预训练的大规模 UDLM 将提供一个清晰的参考点,用于研究扩展行为、生成动态(https://huggingface.co/papers?q=generation%20dynamics)、可控性(https://huggingface.co/papers?q=controllability)以及与已有自回归和掩码扩散模型(https://huggingface.co/papers?q=diffusion%20models)之间的权衡。为此,我们推出了 Sumi(日语中“墨”的意思),一个完全开放的 7B 均匀扩散语言模型,从零开始在 1.5T token 上进行了预训练。Sumi 在知识、推理和编程基准测试中,与在相似 token 预算(https://huggingface.co/papers?q=token%20budget)下训练的自回归模型(https://huggingface.co/papers?q=autoregressive%20models)相比表现相当,但在常识基准上表现欠佳,而我们的以教育为主的混合数据(https://huggingface.co/papers?q=data%20mixture)可能是造成这一结果的一个原因。我们公开了模型权重(https://huggingface.co/papers?q=model%20weights)、检查点以及完整的训练方案(https://huggingface.co/papers?q=training%20recipe),包括对公开语料上混合数据(https://huggingface.co/papers?q=data%20mixture)的完整说明。我们希望此次发布能让社区研究大规模原生均匀扩散,并推动对其尚未充分理解的方面的研究。
查看 arXiv 页面(https://arxiv.org/abs/2606.19005)查看 PDF(https://arxiv.org/pdf/2606.19005)项目页面(https://www.nlp.ecei.tohoku.ac.jp/projects/sumi/)GitHub1(https://github.com/tohoku-nlp/sumi)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.19005)
在您的 agent 中获取此论文:
hf papers read 2606.19005
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型1
tohoku-nlp/sumi-7b Text Generation• 8B• 约2小时前更新(https://huggingface.co/tohoku-nlp/sumi-7b)
引用此论文的数据集0
没有数据集链接此论文
请在数据集的 README.md 中引用 arxiv.org/abs/2606.19005 以从本页链接。
引用此论文的 Spaces0
没有 Space 链接此论文
请在 Space 的 README.md 中引用 arxiv.org/abs/2606.19005 以从本页链接。
包含此论文的收藏0
没有收藏包含此论文
将此论文添加到一个收藏(https://huggingface.co/new-collection)中以从本页链接。
相似文章
自己从零写扩散语言模型比我想的简单多了[P]
开发者分享了一个极简的750万参数扩散语言模型,用莎士比亚文本从头训练,并开源代码供学习。
我从零构建了一个扩散语言模型。它能写出语法完美的句子,但毫无意义,而这正是有趣之处。
作者从零构建了Joey,一个1.7亿参数的掩码扩散语言模型,在FineWeb-Edu上训练并在DailyDialog上微调,由于容量限制,模型能生成流畅但不连贯的句子。该项目突出了与自回归LLM的差异,以及从构建和调试系统中获得的经验教训。
Semantic DLM+:通过转移核设计中的偏差-方差权衡改进扩散语言模型
本文从偏差-方差角度对扩散语言模型进行了理论分析,识别了掩码扩散与均匀扩散核之间的权衡。提出了SemDLM+,通过添加全局转移和语义频率惩罚来克服语义盆地问题,在LM1B和OpenWebText基准上实现了有竞争力的生成质量。
UniSD:面向大型语言模型的统一自蒸馏框架
本文提出了 UniSD,这是一种用于适应大型语言模型的统一自蒸馏框架,整合了监督可靠性、表征对齐和训练稳定性的机制。实验结果表明,UniSD 在多个基准测试中均优于基础模型和现有基线方法。
扩散语言模型:实验分析
一项系统性的实验分析,评估了八种最先进的扩散语言模型在多个基准测试上的表现,分析了生成质量与计算效率之间的权衡。