Holotron-12B - 高吞吐量计算机使用智能体
摘要
H 公司发布 Holotron-12B,一款采用混合 SSM 架构、针对高吞吐量推理优化的多模态计算机使用智能体。该模型基于 NVIDIA Nemotron 进行后训练,在交互式智能体工作负载中展现出卓越的效率与可扩展性。
查看缓存全文
缓存时间: 2026/05/08 09:19
Holotron-12B - 高吞吐量计算机使用智能体
来源:https://huggingface.co/blog/Hcompany/holotron-12b 返回文章 (https://huggingface.co/blog)
- 基于混合 SSM 架构的高吞吐量推理 (https://huggingface.co/blog/Hcompany/holotron-12b#high-throughput-inference-with-a-hybrid-ssm-architecture)
- Holotron-12B 的训练与评估 (https://huggingface.co/blog/Hcompany/holotron-12b#training-and-evaluating-holotron-12b)
- 智能体基准测试 (https://huggingface.co/blog/Hcompany/holotron-12b#agent-benchmarks)
- 定位基准测试 (https://huggingface.co/blog/Hcompany/holotron-12b#localization-benchmarks)
Screenshot 2026-03-17 at 13.25.28 (https://cdn-uploads.huggingface.co/production/uploads/682c3e22650f6bbe33bb9d94/YhjJn9fv7v_sEAwwQMlMf.png)
我们很高兴发布 Holotron-12B,这是来自 H Company 的多模态计算机使用模型。该模型基于开放的 NVIDIA Nemotron-Nano-2 VL 模型进行后训练,使用 H Company 专有的数据混合,是我们研究实验室紧密合作的成果,旨在打造一种主要针对生产环境中的规模和性能进行优化的新型模型。
H Company 是 NVIDIA Inception Program 的成员。
该模型现已在 Hugging Face 上提供。
https://huggingface.co/blog/Hcompany/holotron-12b#why-we-built-holotron-12b我们为何构建 Holotron-12B
如今大多数多模态模型主要针对静态视觉或指令遵循进行优化。然而,与我们的 Holo2 模型一样,Holotron-12B 有着不同的目标:作为计算机使用智能体的策略模型,必须在交互式环境中高效地感知、决策和行动。
对于 Holotron-12B,我们希望创建一个能够在生产环境中高效有效扩展的模型,同时处理包含多张图像的长上下文,并在智能体基准测试中表现良好。NVIDIA Nemotron 模型在推理方面提供了坚实的基础,通过开发 Holotron-12B,我们展示了该模型经过进一步训练后能够实现更大的成就。
https://huggingface.co/blog/Hcompany/holotron-12b#high-throughput-inference-with-a-hybrid-ssm-architecture基于混合 SSM 架构的高吞吐量推理
Holotron-12B 在推理效率方面的显著提升得益于其基础的 Nemotron 架构,该架构采用了混合状态空间模型(SSM)和注意力机制。与纯基于 Transformer 的模型不同,这种设计针对高吞吐量服务进行了优化。状态空间模型通过避免全注意力机制所带来的二次计算成本,为长上下文推理提供了更优的可扩展性,特别有利于涉及多张图像和冗长交互历史的智能体工作负载。在推理方面,SSM 的主要贡献在于其大幅降低的内存占用:虽然标准注意力机制需要为每个 token 和每层存储 K 和 V 激活值(即众所周知的 KV Cache),但 SSM 是一种线性循环模型,每层每个生成序列仅存储一个恒定状态,与序列长度无关。
在 WebVoyager 基准测试评估中,该模型在处理真实世界的多模态智能体工作负载方面表现出色,这类工作负载具有长上下文、多张高分辨率图像以及高达 100 个基准测试工作线程的高请求并发量。在单张 H100 GPU 上运行,并使用支持最新 SSM 优化的 vLLM(v0.14.1),Holotron-12B 实现了比 Holo2-8B 高出 2 倍以上的吞吐量。这使得 Holotron-12B 成为吞吐量受限工作负载(如数据生成、标注和在线强化学习)的理想选择。
在受控实验设置中(见图 2),Holotron-12B 随着并发度的增加持续高效扩展,在最大并发度为 100 时总 token 吞吐量稳步上升至 8.9k tokens/s。相比之下,Holo2-8B 的总 token 吞吐量在 5.1k tokens/s 时更快达到瓶颈。这一行为凸显了 Nemotron 架构的关键优势,即更有效和高效的显存利用率,以及更小的整体内存占用,这使得在相同硬件上可以实现更大的有效批处理大小。即使在较大批处理大小下,Holotron-12B 仍能保持强劲的吞吐量。
https://huggingface.co/blog/Hcompany/holotron-12b#training-and-evaluating-holotron-12bHolotron-12B 的训练与评估
Holotron-12B 的训练分为两个阶段。我们从 NVIDIA 发布的多模态基础模型 Nemotron-Nano-12B-v2-VL-BF16 开始。然后,我们对 H Company 专有的定位和导航数据混合进行监督微调,重点聚焦于屏幕理解、 grounding 和 UI 级别的交互。
最终检查点在大约 140 亿个 token 上进行了训练。
https://huggingface.co/blog/Hcompany/holotron-12b#agent-benchmarks智能体基准测试
在计算机使用和导航基准测试中,Holotron-12B 相比 Nemotron 基础模型显示出显著的改进,并与成熟的智能体模型相比表现出色。其 WebVoyager 性能从 35.1% 提升至 80.5%,超越了 Holo2-8B 在该基准测试上的表现,展示了该模型在智能体环境中的有效执行能力。
https://huggingface.co/blog/Hcompany/holotron-12b#localization-benchmarks定位基准测试
Holotron-12B 在定位和 grounding 基准测试(如 OS-World-G、GroundUI 和 WebClick)上也相比基础 Nemotron 模型有显著提升。
https://huggingface.co/blog/Hcompany/holotron-12b#conclusion结论
Holotron-12B 证明,当与合适的训练设置和基础设施工作相结合时,NVIDIA Nemotron VL 模型为真实世界的多模态智能体提供了坚实的基础。
该模型提供了出色的智能体性能、显著改进的推理吞吐量,以及未来改进的清晰路径,特别是在更高分辨率视觉训练方面。
我们期待看到其他人使用 Holotron-12B 构建什么。该模型和检查点现已根据 NVIDIA Open Model License 在 Hugging Face 上提供。
https://huggingface.co/blog/Hcompany/holotron-12b#whats-next-scaling-the-future-of-agentic-intelligence-with-nemotron-3-omni下一步:借助 Nemotron 3 Omni 扩展智能体智能的未来
NVIDIA 今日宣布发布 Nemotron 3 Omni。在 Holotron-12B 成功的基础上,我们正准备对这一新一代多模态模型进行后训练。通过利用 Nemotron 3 系列增强的混合 SSM-Attention 和 MoE 架构基础,我们旨在通过新发布的 Nemotron 3 Omni 在推理能力和多模态精度方面实现更大的飞跃。随着这一演进将 Holotron 从研究推向商业应用,它将为企业提供大规模自主“计算机使用“部署所需的高吞吐量和低延迟性能。
相似文章
Holo3.1:快速本地计算机使用智能体
Holo3.1 是一个更新的计算机使用模型系列,提升了在网页、桌面和移动环境中的鲁棒性,引入了用于本地执行的量化检查点,并增加了对函数调用协议的原生支持。
NVIDIA推出的Nemotron 3 Ultra
NVIDIA推出了Nemotron 3 Ultra,这是一个新的人工智能模型,旨在为长时间运行的智能体提供更快、更高效的推理能力。
NVIDIA 刚刚宣布发布 Nemotron 3 Ultra(2分钟阅读)
Anthropic 发布了其最智能的模型 Claude Opus 4.5,在 Artificial Analysis Intelligence Index 上获得 70 分,仅次于 Gemini 3 Pro。该模型在编码和智能体任务方面取得了显著进步,同时降低了每个token的价格,并保持了强劲的安全性能。
Holo3.1 35B/9B/4B/0.8B (Qwen 3.5微调版)
H Company发布Holo3.1,这是一个面向计算机使用代理的视觉语言模型系列(0.8B至35B),支持Web、桌面和移动端自动化,具备原生函数调用功能,并提供优化后的量化检查点,便于本地部署。
@TeksEdge:哇!全新开源计算机使用模型在单个 DGX Spark 上于 LLM 排行榜展现强劲本地性能!这…
H 公司发布了 Holo-3.1-35B-A3B-NVFP4,一款开源计算机使用模型,在单个 DGX Spark 节点上可实现每秒高达 195 个 token 的推理速度,性能超越 Qwen3.5-397B 和 Kimi-K2.5 等更大模型。