HRM Seems To Be Going Off Right Now

Reddit r/LocalLLaMA 2026/05/19 23:54 模型

摘要

Sapient Intelligence发布了HRM-Text，一个1B参数的文本生成模型，仅用0.04万亿token训练（成本约1000美元），在多个推理基准上超越训练数据多100-1000倍的更大模型，标志着AI训练新范式的开始。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/05/20 04:28

TL;DR: Sapient Intelligence 发布了 HRM-Text，一个 1B 参数的文本生成模型，仅用 0.04 万亿 token 训练（成本约 1000 美元），在 Math、DROP、ARC-Challenge 等多个推理基准上超越了训练数据多 100–1000 倍的更大模型。其核心创新是“任务完成式学习”和“层次递归 + 前缀 LM 注意力”，使模型在深度和广度上实现高效推理，标志着 AI 训练新范式的开始。 ## 背景：规模假设正在被挑战过去几年，AI 行业基于一个单一假设运行：进步需要规模——更大的模型、更多的数据、更多的算力。如果结果不够好，就训练更大的模型。这个假设行得通，但并非唯一路径。它将能力集中在少数人手中，让迭代变慢、部署昂贵，对大多数团队来说预训练几乎不可能。 Sapient Intelligence 的联合创始人 William 和 Guan 介绍，他们开始构建 HRM（Hierarchical Reasoning Model）是因为相信存在一种更好的方法——一种不依赖于无休止扩大规模的方法。结果是新一代 HRM 概念验证模型家族，特别是 HRM-Text：同类中最精简、最强大的 AI 模型，基于根本不同的架构，仅用一小部分数据训练，可以部署在任何地方。 ## HRM-Text 模型概览 HRM-Text 是一个 10 亿参数级别的文本生成模型，构建于 SPN 核心的 HRM 架构之上。它在约 400 亿（0.04 万亿）个 token 的结构化数据集上训练。对比模型通常基于 4 到 36 万亿个 token 训练。HRM-Text 数据效率高出近 1000 倍，整个模型可在约一天内完成预训练，预算极低（约 1000 美元）。信息量化后仅占约 0.6 GB，可部署在笔记本、移动端或边缘服务器。训练数据精简、计算量精简、部署精简，但精简只有在模型同样强大的时候才有意义。 ## 基准测试结果（2026年4月独立验证） HRM-Text 在四个测试智能不同维度的基准上进行了评估，并与 OMO 3 7B、Quan 3.5 2B、Jamma 3 4B、LMA 3.2 3B 和 GPT 3.5 等模型比较。 ### Math（数学推理）每个问题需要规划解决方案路径，跨多个操作执行，并跟踪中间结果。HRM-Text 得分 56.2，为表中最高。参数为其 7 倍的 OMO（训练数据多 150 倍）得分 40.0，差距 16 分，而计算量仅为三百分之一。Llama 得分 48.0，Quinn 34.2，GPT 34.1，JMA 24.2。 ### DROP（段落上的离散推理） DROP 测试模型在给定文本上的离散和数值推理能力。HRM-Text 得分 82.2，最接近的开放模型约 71.5，比 7 倍大的模型高出 10 分。Cohere 得分 30.8（不到结果的 38%），尽管在 900 倍数据上训练。GPT 得分 64.1，JMA 60.1，Llama 45.2。DROP 是差距最大的基准，最直接反映 HRM 循环架构设计目的：持有基于图的信息并精确处理。 ### ARC-Challenge（科学与常识）一组科学和常识问题，要求对物理世界工作原理有强理解。HRM-Text 得分 81.9，再次领先该组，训练效率高出数百倍。GPT 得分 85.2，但代价巨大。 ### MMLU（57 个领域知识广度）从历史到医学、法律、物理学。HRM-Text 得分 60.7，属于顶级性能。竞争模型在万亿级 token 上训练，在记忆事实方面有优势。HRM-Text 仅用 400 亿 token 是一个深思熟虑的选择——一个为推理深度构建的模型，与为吸收整个互联网而构建的模型相比，涵盖更少随机事实。 ## 效率论证：训练成本对比两个散点图从不同角度展示了效率：高基准平均值 vs 低训练成本。HRM 的蓝色星星独自坐在左上角（最佳位置），标记为 1x。所有其他模型更靠右下方。在对数尺度上，竞争模型使用了 100 到约 1000 倍更多的 token，计算量方面使用了 130 到 600 倍更多的 FLOPs，GPT 估计使用了 44,000 倍更多的 FLOPs。即使效率惊人，HRM 仍带来更好的平均推理性能。 ## 核心架构创新 HRM-Text 如何做到？两个关键想法： ### 1. 任务完成式学习（让模型更聪明地学习）传统模型通过预测下一个 token 学习，每个词权重相同（填充词、功能词、关键推理步骤同等对待）。HRM-Text 使用结构化的指令-响应对，损失仅针对响应计算。模型从推理步骤和解决方案学习，而不是从表面语言学习。它不再关注“下一个词是什么”，而是学习“如何完成任务”。这使得模型能快速从相似数据结构中识别并推导出模式和规则，通过更少样本高效学习。 ### 2. 更深、更广的结构（让模型思考得更深、更广）大多数模型运行在浅层堆栈（约 30 层），一次只读取问题的一个词，只有在最后一个 token 时才获得完整画面。HRM-Text 在深度和广度上采取了不同方法： - **深度**：拥有 120 层有效深度，比标准 LM 深 4 倍以上。 - **广度**：能一次性反复看到完整问题，为在整个输入上进行真正计算提供空间。实现方式： - **层次递归**：堆栈分成两个模块——高层模块（更新缓慢以设定方向）和低层模块（更新快速以处理细粒度步骤）。这种结构保持训练稳定。 - **前缀 LM 注意力**：使模型能够在每次传递中关注完整问题。更深、更广，但并不更大。 ## 新范式的意义 HRM-Text 的意义远超单一模型发布。它标志着一个新范式的开始——AI 概念的实现和未来发展可能变得更加精简。今天，可以在约一天内以约 1000 美元成本从头训练一个模型，性能与那些花费数月生产的模型相当。这为许多研究可能性打开了大门，如持续学习、专家模型等。如果构建 AI 需要万亿 token 数据集和成千上万 GPU，世界上大多数人都无法参与。HRM-Text 正是为解决这个问题而设计。效率本身不是目的，而是为了改变谁能构建、谁能部署以及谁能受益的分布。对于研究社区，这重新开启了被规模所关闭的东西。多年来伟大的架构想法未能实现，不是因为他们错了，而是因为没人能负担得起预训练。当预训练成本降低近一千倍时，架构空间变得可以再次探索。这就是真正的 AGI 时代。HRM-Text 在该领域处于领先地位。任务完成、潜在空间推理、层次结构——这只是一个基础，而不是天花板。现在正在定义新的规模定律。 ## 开放邀请 Sapient Intelligence 通过将思考与知识解耦、实现持续学习、开创新的规模范式，继续跨越鸿沟，迈向通用人工智能。他们邀请大家探索 HRM-Text，并与他们一起塑造智能的未来。 Source: [https://www.youtube.com/watch?v=jP2HgeLyS30](https://www.youtube.com/watch?v=jP2HgeLyS30)

相似文章

HRM-Text: 仅用1千美元和400亿token训练，采用受大脑启发的分层潜在架构

Reddit r/singularity

HRM-Text是一个10亿参数文本生成模型，采用受大脑启发的分层循环架构，仅用400亿token和约1000美元即可实现高效预训练，大幅降低计算和数据需求，使得基础模型训练更加可及。

@Sapient_Int: 推出 HRM-Text。一个超精简的 1B 参数推理语言模型，旨在提供强大的通用性能…

X AI KOLs Timeline

Sapient Intelligence 推出 HRM-Text，这是一个 1B 参数的推理语言模型，仅使用 40B tokens 训练，预算为 1000 美元，在大幅减少数据和计算需求的同时实现了具有竞争力的性能。

sapientinc/HRM-Text-1B

Hugging Face Models Trending

Sapient Intelligence 发布了 HRM-Text-1B，这是一个拥有10亿参数的语言模型，采用新颖的双时间尺度循环架构（分层推理模型），以有限的参数数量提供无限的计算深度。预对齐检查点已在 Hugging Face 上开放获取。

HRM-Text: 超越规模的高效预训练

arXiv cs.CL

HRM-Text 引入了一种分层循环模型，将计算解耦为慢速和快速层级，使得仅使用400亿个token和1500美元预算即可从头开始高效预训练，实现了与更大模型竞争的性能。

@vintcessun: 预训练原来可以这么省？1B模型、~$1000就能从零训出可用的基础模型，计算和数据量直接砍掉数百倍。核心不靠堆算力，而是层次递归架构加上潜在空间推理，配合PrefixLM packing和FA3把效率拉满。有点离谱，但论文和代码都开源了。