efficient-pretraining

#efficient-pretraining

HRM-Text: 超越规模的高效预训练

arXiv cs.CL ↗ · 2026-05-21 缓存

HRM-Text 引入了一种分层循环模型，将计算解耦为慢速和快速层级，使得仅使用400亿个token和1500美元预算即可从头开始高效预训练，实现了与更大模型竞争的性能。

0 人收藏 0 人点赞

#efficient-pretraining

Reddit r/singularity ↗ · 2026-05-19 缓存

HRM-Text是一个10亿参数文本生成模型，采用受大脑启发的分层循环架构，仅用400亿token和约1000美元即可实现高效预训练，大幅降低计算和数据需求，使得基础模型训练更加可及。

0 人收藏 0 人点赞