HRM-Text: 仅用1千美元和400亿token训练，采用受大脑启发的分层潜在架构

Reddit r/singularity 2026/05/19 08:28 模型

摘要

HRM-Text是一个10亿参数文本生成模型，采用受大脑启发的分层循环架构，仅用400亿token和约1000美元即可实现高效预训练，大幅降低计算和数据需求，使得基础模型训练更加可及。

HRM-Text是一个基于HRM架构的10亿参数文本生成模型，通过任务完成和潜在空间推理得到增强。它提供了完整的预训练框架，使得基础模型预训练的计算需求降低130-600倍，数据需求降低150-900倍。该模型基于分层循环架构，采用PrefixLM序列打包、FlashAttention 3内核、PyTorch FSDP2训练、评估和检查点转换工具。

查看原文

查看缓存全文

缓存时间: 2026/05/19 08:43

🌟 用约1000美元从头预训练一个基础模型。🌠

相似文章

HRM-Text: 超越规模的高效预训练

arXiv cs.CL

HRM-Text 引入了一种分层循环模型，将计算解耦为慢速和快速层级，使得仅使用400亿个token和1500美元预算即可从头开始高效预训练，实现了与更大模型竞争的性能。

HRM Seems To Be Going Off Right Now

Reddit r/LocalLLaMA

Sapient Intelligence发布了HRM-Text，一个1B参数的文本生成模型，仅用0.04万亿token训练（成本约1000美元），在多个推理基准上超越训练数据多100-1000倍的更大模型，标志着AI训练新范式的开始。

@Sapient_Int: 推出 HRM-Text。一个超精简的 1B 参数推理语言模型，旨在提供强大的通用性能…

X AI KOLs Timeline

Sapient Intelligence 推出 HRM-Text，这是一个 1B 参数的推理语言模型，仅使用 40B tokens 训练，预算为 1000 美元，在大幅减少数据和计算需求的同时实现了具有竞争力的性能。

sapientinc/HRM-Text-1B

Hugging Face Models Trending

Sapient Intelligence 发布了 HRM-Text-1B，这是一个拥有10亿参数的语言模型，采用新颖的双时间尺度循环架构（分层推理模型），以有限的参数数量提供无限的计算深度。预对齐检查点已在 Hugging Face 上开放获取。

New SOTA 1B model? HRM-text