arc-c

标签

Cards List
#arc-c

HRM-Text: 超越规模的高效预训练

arXiv cs.CL · 2026-05-21 缓存

HRM-Text 引入了一种分层循环模型,将计算解耦为慢速和快速层级,使得仅使用400亿个token和1500美元预算即可从头开始高效预训练,实现了与更大模型竞争的性能。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈