MultiHashFormer：基于哈希的生成式语言模型

arXiv cs.CL 2026/06/29 04:00 论文

hash-based language-models autoregressive parameter-efficiency transformer generative multilingual arxiv

摘要

MultiHashFormer是一种基于哈希的生成式语言模型，它通过将每个词元表示为独特的哈希签名，实现了参数高效的自回归。在1亿、10亿和30亿参数规模上，该模型均优于标准Transformer语言模型，并且能够在参数不变的情况下支持多语言词汇扩展。

arXiv:2606.28057v1 公告类型：新摘要：语言模型（LM）使用与词汇量大小线性扩展的嵌入矩阵来表示词元。为了限制参数规模，先前的工作在仅编码器模型中提出将多个词元哈希到一个向量中。尽管这带来了参数效率，但多对一的冲突使其无法应用于因果LM。在本文中，我们提出了MultiHashFormer，一种支持基于哈希自回归的新框架。每个词元被表示为独特的哈希签名，即由多个独立哈希函数生成的离散哈希ID短序列。哈希编码器将此签名压缩为单个潜在向量，供Transformer解码器处理。然后，哈希解码器生成下一个词元的哈希签名，并将其映射回文本。我们在1亿、10亿和30亿参数规模上评估了该方法，结果表明MultiHashFormer在多个基准测试中始终优于标准Transformer LM。此外，我们还展示了该模型能够在参数规模不变且无需任何修改的情况下处理多语言词汇扩展。

查看原文

查看缓存全文

缓存时间: 2026/06/29 05:25

# MultiHashFormer：基于哈希的生成式语言模型
来源：https://arxiv.org/abs/2606.28057
查看 PDF（https://arxiv.org/pdf/2606.28057）

> **摘要**：语言模型使用随词汇量线性扩展的嵌入矩阵来表示标记。为了限制参数规模，先前的工作提出在仅编码器模型中将许多标记哈希到单个向量中。虽然这提供了参数效率，但多对一碰撞问题阻碍了其在因果语言模型中的应用。在本文中，我们提出了 MultiHashFormer，一种允许基于哈希的自回归的新框架。每个标记被表示为唯一的哈希签名，即由多个独立哈希函数生成的短离散哈希 ID 序列。哈希编码器将此签名压缩为单个潜在向量，供 Transformer 解码器处理。然后，哈希解码器生成下一个标记的哈希签名，再将其映射回文本。我们在 1 亿、10 亿和 30 亿参数规模下评估了我们的方法，结果表明 MultiHashFormer 在多个基准测试中始终优于标准 Transformer 语言模型。此外，我们展示了模型能够以恒定的参数空间处理多语言词汇扩展，而无需任何修改。

## 提交历史

来自：薛惠尹 \[查看电子邮件 (https://arxiv.org/show-email/3c52616c/2606.28057)\] **\[v1\]** 2026 年 6 月 26 日星期五 13:03:29 UTC（4,031 KB）

MultiHashFormer：基于哈希的生成式语言模型

相似文章

BitLM：利用位级连续扩散解锁多 Token 语言生成

Hy-MT2：一套快速、高效且强大的多语言翻译模型，面向实际应用

面向主体驱动生成的多模态大语言模型能力挖掘

HEBATRON：一款专攻希伯来语的开权重大语言模型

基于Transformer的语言模型在垂直领域中的应用：架构、应用与批判性评估

提交意见反馈