Holotron-12B - 高吞吐量计算机使用智能体
摘要
H 公司发布 Holotron-12B,一款采用混合 SSM 架构、针对高吞吐量推理优化的多模态计算机使用智能体。该模型基于 NVIDIA Nemotron 进行后训练,在交互式智能体工作负载中展现出卓越的效率与可扩展性。
查看缓存全文
缓存时间: 2026/05/08 09:19
Holotron-12B - 高吞吐量计算机使用智能体
来源:https://huggingface.co/blog/Hcompany/holotron-12b 返回文章 (https://huggingface.co/blog)
- 基于混合 SSM 架构的高吞吐量推理 (https://huggingface.co/blog/Hcompany/holotron-12b#high-throughput-inference-with-a-hybrid-ssm-architecture)
- Holotron-12B 的训练与评估 (https://huggingface.co/blog/Hcompany/holotron-12b#training-and-evaluating-holotron-12b)
- 智能体基准测试 (https://huggingface.co/blog/Hcompany/holotron-12b#agent-benchmarks)
- 定位基准测试 (https://huggingface.co/blog/Hcompany/holotron-12b#localization-benchmarks)
Screenshot 2026-03-17 at 13.25.28 (https://cdn-uploads.huggingface.co/production/uploads/682c3e22650f6bbe33bb9d94/YhjJn9fv7v_sEAwwQMlMf.png)
我们很高兴发布 Holotron-12B,这是来自 H Company 的多模态计算机使用模型。该模型基于开放的 NVIDIA Nemotron-Nano-2 VL 模型进行后训练,使用 H Company 专有的数据混合,是我们研究实验室紧密合作的成果,旨在打造一种主要针对生产环境中的规模和性能进行优化的新型模型。
H Company 是 NVIDIA Inception Program 的成员。
该模型现已在 Hugging Face 上提供。
https://huggingface.co/blog/Hcompany/holotron-12b#why-we-built-holotron-12b我们为何构建 Holotron-12B
如今大多数多模态模型主要针对静态视觉或指令遵循进行优化。然而,与我们的 Holo2 模型一样,Holotron-12B 有着不同的目标:作为计算机使用智能体的策略模型,必须在交互式环境中高效地感知、决策和行动。
对于 Holotron-12B,我们希望创建一个能够在生产环境中高效有效扩展的模型,同时处理包含多张图像的长上下文,并在智能体基准测试中表现良好。NVIDIA Nemotron 模型在推理方面提供了坚实的基础,通过开发 Holotron-12B,我们展示了该模型经过进一步训练后能够实现更大的成就。
https://huggingface.co/blog/Hcompany/holotron-12b#high-throughput-inference-with-a-hybrid-ssm-architecture基于混合 SSM 架构的高吞吐量推理
Holotron-12B 在推理效率方面的显著提升得益于其基础的 Nemotron 架构,该架构采用了混合状态空间模型(SSM)和注意力机制。与纯基于 Transformer 的模型不同,这种设计针对高吞吐量服务进行了优化。状态空间模型通过避免全注意力机制所带来的二次计算成本,为长上下文推理提供了更优的可扩展性,特别有利于涉及多张图像和冗长交互历史的智能体工作负载。在推理方面,SSM 的主要贡献在于其大幅降低的内存占用:虽然标准注意力机制需要为每个 token 和每层存储 K 和 V 激活值(即众所周知的 KV Cache),但 SSM 是一种线性循环模型,每层每个生成序列仅存储一个恒定状态,与序列长度无关。
在 WebVoyager 基准测试评估中,该模型在处理真实世界的多模态智能体工作负载方面表现出色,这类工作负载具有长上下文、多张高分辨率图像以及高达 100 个基准测试工作线程的高请求并发量。在单张 H100 GPU 上运行,并使用支持最新 SSM 优化的 vLLM(v0.14.1),Holotron-12B 实现了比 Holo2-8B 高出 2 倍以上的吞吐量。这使得 Holotron-12B 成为吞吐量受限工作负载(如数据生成、标注和在线强化学习)的理想选择。
在受控实验设置中(见图 2),Holotron-12B 随着并发度的增加持续高效扩展,在最大并发度为 100 时总 token 吞吐量稳步上升至 8.9k tokens/s。相比之下,Holo2-8B 的总 token 吞吐量在 5.1k tokens/s 时更快达到瓶颈。这一行为凸显了 Nemotron 架构的关键优势,即更有效和高效的显存利用率,以及更小的整体内存占用,这使得在相同硬件上可以实现更大的有效批处理大小。即使在较大批处理大小下,Holotron-12B 仍能保持强劲的吞吐量。
https://huggingface.co/blog/Hcompany/holotron-12b#training-and-evaluating-holotron-12bHolotron-12B 的训练与评估
Holotron-12B 的训练分为两个阶段。我们从 NVIDIA 发布的多模态基础模型 Nemotron-Nano-12B-v2-VL-BF16 开始。然后,我们对 H Company 专有的定位和导航数据混合进行监督微调,重点聚焦于屏幕理解、 grounding 和 UI 级别的交互。
最终检查点在大约 140 亿个 token 上进行了训练。
https://huggingface.co/blog/Hcompany/holotron-12b#agent-benchmarks智能体基准测试
在计算机使用和导航基准测试中,Holotron-12B 相比 Nemotron 基础模型显示出显著的改进,并与成熟的智能体模型相比表现出色。其 WebVoyager 性能从 35.1% 提升至 80.5%,超越了 Holo2-8B 在该基准测试上的表现,展示了该模型在智能体环境中的有效执行能力。
https://huggingface.co/blog/Hcompany/holotron-12b#localization-benchmarks定位基准测试
Holotron-12B 在定位和 grounding 基准测试(如 OS-World-G、GroundUI 和 WebClick)上也相比基础 Nemotron 模型有显著提升。
https://huggingface.co/blog/Hcompany/holotron-12b#conclusion结论
Holotron-12B 证明,当与合适的训练设置和基础设施工作相结合时,NVIDIA Nemotron VL 模型为真实世界的多模态智能体提供了坚实的基础。
该模型提供了出色的智能体性能、显著改进的推理吞吐量,以及未来改进的清晰路径,特别是在更高分辨率视觉训练方面。
我们期待看到其他人使用 Holotron-12B 构建什么。该模型和检查点现已根据 NVIDIA Open Model License 在 Hugging Face 上提供。
https://huggingface.co/blog/Hcompany/holotron-12b#whats-next-scaling-the-future-of-agentic-intelligence-with-nemotron-3-omni下一步:借助 Nemotron 3 Omni 扩展智能体智能的未来
NVIDIA 今日宣布发布 Nemotron 3 Omni。在 Holotron-12B 成功的基础上,我们正准备对这一新一代多模态模型进行后训练。通过利用 Nemotron 3 系列增强的混合 SSM-Attention 和 MoE 架构基础,我们旨在通过新发布的 Nemotron 3 Omni 在推理能力和多模态精度方面实现更大的飞跃。随着这一演进将 Holotron 从研究推向商业应用,它将为企业提供大规模自主“计算机使用“部署所需的高吞吐量和低延迟性能。
相似文章
NVIDIA 发布 Nemotron 3 Nano Omni 模型,统一视觉、音频和语言处理,助力 AI Agent 效率提升高达 9 倍
NVIDIA 宣布推出 Nemotron 3 Nano Omni,这是一款开放的多模态模型,通过统一视觉、音频和语言处理,使 AI Agent 能够更快、更高效地运行。与其他开放式的 Omni 模型相比,其吞吐量最高可提高 9 倍。
nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16
NVIDIA 发布 Nemotron 3 Nano Omni,一款 300 亿参数的多模态模型,能够处理视频、音频、图像和文本,并集成推理能力,适用于企业工作流。
NVIDIA 发布 Nemotron 3 Nano Omni:面向文档、音频和视频智能体的长上下文多模态智能
NVIDIA 发布 Nemotron 3 Nano Omni,这是一款新型长上下文多模态 AI 模型,能够以高准确性和高效率处理文档、音频、视频和文本。
@sudoingX:这台笔记本通过 Hermes agent 以 99% GPU 利用率本地跑 31B 模型,持续 15 tok/s,22.8 o…
一台笔记本借助 Hermes agent 本地运行 31B 模型,速度 15 tok/s,显存占用 22.8 GB,功耗 94 W,实现完全自主、私密、无需云端的 AI 推理。
HEBATRON:一款专攻希伯来语的开权重大语言模型
Hebatron 是一款基于 NVIDIA Nemotron-3 混合专家(MoE)架构构建的、专攻希伯来语的新开源权重大型语言模型。该模型在实现高效推理的同时展现出强大的推理能力。它是首个针对该架构进行的语言特定适配版本,并支持原生长上下文处理。