efficient-pretraining

标签

Cards List
#efficient-pretraining

HRM-Text: 超越规模的高效预训练

arXiv cs.CL · 2026-05-21 缓存

HRM-Text 引入了一种分层循环模型,将计算解耦为慢速和快速层级,使得仅使用400亿个token和1500美元预算即可从头开始高效预训练,实现了与更大模型竞争的性能。

0 人收藏 0 人点赞
#efficient-pretraining

HRM-Text: 仅用1千美元和400亿token训练,采用受大脑启发的分层潜在架构

Reddit r/singularity · 2026-05-19 缓存

HRM-Text是一个10亿参数文本生成模型,采用受大脑启发的分层循环架构,仅用400亿token和约1000美元即可实现高效预训练,大幅降低计算和数据需求,使得基础模型训练更加可及。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈