HRM Seems To Be Going Off Right Now
摘要
Sapient Intelligence发布了HRM-Text,一个1B参数的文本生成模型,仅用0.04万亿token训练(成本约1000美元),在多个推理基准上超越训练数据多100-1000倍的更大模型,标志着AI训练新范式的开始。
暂无内容
查看缓存全文
缓存时间: 2026/05/20 04:28
TL;DR: Sapient Intelligence 发布了 HRM-Text,一个 1B 参数的文本生成模型,仅用 0.04 万亿 token 训练(成本约 1000 美元),在 Math、DROP、ARC-Challenge 等多个推理基准上超越了训练数据多 100–1000 倍的更大模型。其核心创新是“任务完成式学习”和“层次递归 + 前缀 LM 注意力”,使模型在深度和广度上实现高效推理,标志着 AI 训练新范式的开始。
## 背景:规模假设正在被挑战
过去几年,AI 行业基于一个单一假设运行:进步需要规模——更大的模型、更多的数据、更多的算力。如果结果不够好,就训练更大的模型。这个假设行得通,但并非唯一路径。它将能力集中在少数人手中,让迭代变慢、部署昂贵,对大多数团队来说预训练几乎不可能。
Sapient Intelligence 的联合创始人 William 和 Guan 介绍,他们开始构建 HRM(Hierarchical Reasoning Model)是因为相信存在一种更好的方法——一种不依赖于无休止扩大规模的方法。结果是新一代 HRM 概念验证模型家族,特别是 HRM-Text:同类中最精简、最强大的 AI 模型,基于根本不同的架构,仅用一小部分数据训练,可以部署在任何地方。
## HRM-Text 模型概览
HRM-Text 是一个 10 亿参数级别的文本生成模型,构建于 SPN 核心的 HRM 架构之上。它在约 400 亿(0.04 万亿)个 token 的结构化数据集上训练。对比模型通常基于 4 到 36 万亿个 token 训练。HRM-Text 数据效率高出近 1000 倍,整个模型可在约一天内完成预训练,预算极低(约 1000 美元)。信息量化后仅占约 0.6 GB,可部署在笔记本、移动端或边缘服务器。
训练数据精简、计算量精简、部署精简,但精简只有在模型同样强大的时候才有意义。
## 基准测试结果(2026年4月独立验证)
HRM-Text 在四个测试智能不同维度的基准上进行了评估,并与 OMO 3 7B、Quan 3.5 2B、Jamma 3 4B、LMA 3.2 3B 和 GPT 3.5 等模型比较。
### Math(数学推理)
每个问题需要规划解决方案路径,跨多个操作执行,并跟踪中间结果。HRM-Text 得分 56.2,为表中最高。参数为其 7 倍的 OMO(训练数据多 150 倍)得分 40.0,差距 16 分,而计算量仅为三百分之一。Llama 得分 48.0,Quinn 34.2,GPT 34.1,JMA 24.2。
### DROP(段落上的离散推理)
DROP 测试模型在给定文本上的离散和数值推理能力。HRM-Text 得分 82.2,最接近的开放模型约 71.5,比 7 倍大的模型高出 10 分。Cohere 得分 30.8(不到结果的 38%),尽管在 900 倍数据上训练。GPT 得分 64.1,JMA 60.1,Llama 45.2。DROP 是差距最大的基准,最直接反映 HRM 循环架构设计目的:持有基于图的信息并精确处理。
### ARC-Challenge(科学与常识)
一组科学和常识问题,要求对物理世界工作原理有强理解。HRM-Text 得分 81.9,再次领先该组,训练效率高出数百倍。GPT 得分 85.2,但代价巨大。
### MMLU(57 个领域知识广度)
从历史到医学、法律、物理学。HRM-Text 得分 60.7,属于顶级性能。竞争模型在万亿级 token 上训练,在记忆事实方面有优势。HRM-Text 仅用 400 亿 token 是一个深思熟虑的选择——一个为推理深度构建的模型,与为吸收整个互联网而构建的模型相比,涵盖更少随机事实。
## 效率论证:训练成本对比
两个散点图从不同角度展示了效率:高基准平均值 vs 低训练成本。HRM 的蓝色星星独自坐在左上角(最佳位置),标记为 1x。所有其他模型更靠右下方。在对数尺度上,竞争模型使用了 100 到约 1000 倍更多的 token,计算量方面使用了 130 到 600 倍更多的 FLOPs,GPT 估计使用了 44,000 倍更多的 FLOPs。即使效率惊人,HRM 仍带来更好的平均推理性能。
## 核心架构创新
HRM-Text 如何做到?两个关键想法:
### 1. 任务完成式学习(让模型更聪明地学习)
传统模型通过预测下一个 token 学习,每个词权重相同(填充词、功能词、关键推理步骤同等对待)。HRM-Text 使用结构化的指令-响应对,损失仅针对响应计算。模型从推理步骤和解决方案学习,而不是从表面语言学习。它不再关注“下一个词是什么”,而是学习“如何完成任务”。这使得模型能快速从相似数据结构中识别并推导出模式和规则,通过更少样本高效学习。
### 2. 更深、更广的结构(让模型思考得更深、更广)
大多数模型运行在浅层堆栈(约 30 层),一次只读取问题的一个词,只有在最后一个 token 时才获得完整画面。HRM-Text 在深度和广度上采取了不同方法:
- **深度**:拥有 120 层有效深度,比标准 LM 深 4 倍以上。
- **广度**:能一次性反复看到完整问题,为在整个输入上进行真正计算提供空间。
实现方式:
- **层次递归**:堆栈分成两个模块——高层模块(更新缓慢以设定方向)和低层模块(更新快速以处理细粒度步骤)。这种结构保持训练稳定。
- **前缀 LM 注意力**:使模型能够在每次传递中关注完整问题。
更深、更广,但并不更大。
## 新范式的意义
HRM-Text 的意义远超单一模型发布。它标志着一个新范式的开始——AI 概念的实现和未来发展可能变得更加精简。今天,可以在约一天内以约 1000 美元成本从头训练一个模型,性能与那些花费数月生产的模型相当。这为许多研究可能性打开了大门,如持续学习、专家模型等。
如果构建 AI 需要万亿 token 数据集和成千上万 GPU,世界上大多数人都无法参与。HRM-Text 正是为解决这个问题而设计。效率本身不是目的,而是为了改变谁能构建、谁能部署以及谁能受益的分布。对于研究社区,这重新开启了被规模所关闭的东西。多年来伟大的架构想法未能实现,不是因为他们错了,而是因为没人能负担得起预训练。
当预训练成本降低近一千倍时,架构空间变得可以再次探索。这就是真正的 AGI 时代。HRM-Text 在该领域处于领先地位。任务完成、潜在空间推理、层次结构——这只是一个基础,而不是天花板。现在正在定义新的规模定律。
## 开放邀请
Sapient Intelligence 通过将思考与知识解耦、实现持续学习、开创新的规模范式,继续跨越鸿沟,迈向通用人工智能。他们邀请大家探索 HRM-Text,并与他们一起塑造智能的未来。
Source: [https://www.youtube.com/watch?v=jP2HgeLyS30](https://www.youtube.com/watch?v=jP2HgeLyS30)
相似文章
HRM-Text: 仅用1千美元和400亿token训练,采用受大脑启发的分层潜在架构
HRM-Text是一个10亿参数文本生成模型,采用受大脑启发的分层循环架构,仅用400亿token和约1000美元即可实现高效预训练,大幅降低计算和数据需求,使得基础模型训练更加可及。
@Sapient_Int: 推出 HRM-Text。一个超精简的 1B 参数推理语言模型,旨在提供强大的通用性能…
Sapient Intelligence 推出 HRM-Text,这是一个 1B 参数的推理语言模型,仅使用 40B tokens 训练,预算为 1000 美元,在大幅减少数据和计算需求的同时实现了具有竞争力的性能。
sapientinc/HRM-Text-1B
Sapient Intelligence 发布了 HRM-Text-1B,这是一个拥有10亿参数的语言模型,采用新颖的双时间尺度循环架构(分层推理模型),以有限的参数数量提供无限的计算深度。预对齐检查点已在 Hugging Face 上开放获取。
HRM-Text: 超越规模的高效预训练
HRM-Text 引入了一种分层循环模型,将计算解耦为慢速和快速层级,使得仅使用400亿个token和1500美元预算即可从头开始高效预训练,实现了与更大模型竞争的性能。
New SOTA 1B model? HRM-text
HRM-text 是 Sapient Intelligence 提出的 1B 参数分层推理语言模型,通过内部潜在空间高效思考,以极低训练成本实现超越多数同尺寸模型的性能。