MultiHashFormer:基于哈希的生成式语言模型

arXiv cs.CL 论文

摘要

MultiHashFormer是一种基于哈希的生成式语言模型,它通过将每个词元表示为独特的哈希签名,实现了参数高效的自回归。在1亿、10亿和30亿参数规模上,该模型均优于标准Transformer语言模型,并且能够在参数不变的情况下支持多语言词汇扩展。

arXiv:2606.28057v1 公告类型:新 摘要:语言模型(LM)使用与词汇量大小线性扩展的嵌入矩阵来表示词元。为了限制参数规模,先前的工作在仅编码器模型中提出将多个词元哈希到一个向量中。尽管这带来了参数效率,但多对一的冲突使其无法应用于因果LM。在本文中,我们提出了MultiHashFormer,一种支持基于哈希自回归的新框架。每个词元被表示为独特的哈希签名,即由多个独立哈希函数生成的离散哈希ID短序列。哈希编码器将此签名压缩为单个潜在向量,供Transformer解码器处理。然后,哈希解码器生成下一个词元的哈希签名,并将其映射回文本。我们在1亿、10亿和30亿参数规模上评估了该方法,结果表明MultiHashFormer在多个基准测试中始终优于标准Transformer LM。此外,我们还展示了该模型能够在参数规模不变且无需任何修改的情况下处理多语言词汇扩展。
查看原文
查看缓存全文

缓存时间: 2026/06/29 05:25

# MultiHashFormer:基于哈希的生成式语言模型
来源:https://arxiv.org/abs/2606.28057
查看 PDF(https://arxiv.org/pdf/2606.28057)

> **摘要**:语言模型使用随词汇量线性扩展的嵌入矩阵来表示标记。为了限制参数规模,先前的工作提出在仅编码器模型中将许多标记哈希到单个向量中。虽然这提供了参数效率,但多对一碰撞问题阻碍了其在因果语言模型中的应用。在本文中,我们提出了 MultiHashFormer,一种允许基于哈希的自回归的新框架。每个标记被表示为唯一的哈希签名,即由多个独立哈希函数生成的短离散哈希 ID 序列。哈希编码器将此签名压缩为单个潜在向量,供 Transformer 解码器处理。然后,哈希解码器生成下一个标记的哈希签名,再将其映射回文本。我们在 1 亿、10 亿和 30 亿参数规模下评估了我们的方法,结果表明 MultiHashFormer 在多个基准测试中始终优于标准 Transformer 语言模型。此外,我们展示了模型能够以恒定的参数空间处理多语言词汇扩展,而无需任何修改。

## 提交历史

来自:薛惠尹 \[查看电子邮件 (https://arxiv.org/show-email/3c52616c/2606.28057)\] **\[v1\]** 2026 年 6 月 26 日星期五 13:03:29 UTC(4,031 KB)

相似文章

面向主体驱动生成的多模态大语言模型能力挖掘

Hugging Face Daily Papers

本文提出了一种新颖的方法,将扩散模型以多模态大语言模型(MLLMs)为条件,用于主体驱动图像生成,使用基于VAE的身份条件化和双层聚合模块,提高语义理解和身份保持,同时减轻复制粘贴伪影。

HEBATRON:一款专攻希伯来语的开权重大语言模型

arXiv cs.CL

Hebatron 是一款基于 NVIDIA Nemotron-3 混合专家(MoE)架构构建的、专攻希伯来语的新开源权重大型语言模型。该模型在实现高效推理的同时展现出强大的推理能力。它是首个针对该架构进行的语言特定适配版本,并支持原生长上下文处理。