DeepInsight: 物理AI栈的统一评估基础设施

arXiv cs.AI 论文

摘要

本文介绍了DeepInsight,一个面向物理AI栈的统一评估基础设施,涵盖从基础模型解码到全身控制,通过三种窄抽象保留异构性,从而实现跨层诊断。

arXiv:2606.17574v1 公告类型:新 摘要:物理AI栈的评估涵盖操作符,这些操作符的差异超过三个数量级——从单个基础模型解码步骤到数千个全身控制的物理时间步——在模态、奖励语义和资源配置上正交变化。现有框架无法覆盖这一范围,因此当前通过拼接独立的测试框架来评估整个栈,这些框架既不共享运行时也不共享评分,虽然保留了每个局部的有效性,但失去了诊断跨层回归所需的共享标识。我们提出了DeepInsight,一个在单一运行时上服务于整个光谱的评估基础设施。它并非将不同机制同质化,而是通过三种窄抽象——任务、资源和结果——保留其异构性,每种抽象均由每个子系统共享的一个不变量实现:一个回合驱动程序,一个由每个昂贵后端(包括LLM推理和沙盒运行时)实现的资源句柄协议,以及一个每个事件都会写入的轨迹标识方案。该方案在一个人形机器人具身栈的所有三层中投入生产,这一组不变性使得新基准测试主要通过配置即可接入。在已有的成熟同级编排器(如在基础模型端)处,它能在自身误差范围内复现已发布的参考值和对等框架读数,在单个节点上以更快的速度运行相同的测试套件,并跨节点实现近线性扩展。其独特的价值在于诊断能力:由于每一层都写入同一个共享轨迹,从一个层开始并在另一层显现的回归问题在该轨迹上始终保持可定位——这是任何分段测试框架联合体都无法实现的跨层收益。
查看原文
查看缓存全文

缓存时间: 2026/06/17 05:37

# DeepInsight: 跨越物理AI堆栈的统一评估基础设施 来源:https://arxiv.org/html/2606.17574 Siyi Li, Chunyu Sun, Jiahao Zhang, Yuchen Kang, Wuliang Wang, Yu Qiu, Rui Jiang, Haitao Cui, Jie Chen† ###### 摘要 评估一个物理AI堆栈涉及的操作符相差超过三个数量级——从单个基础模型解码步骤到全身控制的数千个物理滴答——在模态、奖励语义和资源特征上正交变化。现有框架无法涵盖这一范围,因此如今的评估是通过拼凑各自独立的测试工具进行的,这些工具既不共享运行时,也不共享评分,保留了每个片段的局部有效性,但失去了诊断跨层回归所需的一致身份。我们提出DeepInsight,一个在单一运行时上服务于整个频谱的评估基础设施。它不是要同质化这些区域,而是在三个窄抽象——任务、资源和结果——背后保留其异质性,每个抽象都由每个子系统共享的一个不变量实现:一个episode驱动、一个由每个昂贵后端(LLM推理和沙盒运行时)实现的资源句柄协议,以及一个用于写入每个事件的追踪身份方案。在一个人形机器人的所有三层堆栈中部署,这套单一不变量通过配置即可接入新基准。在存在成熟同类协调器的地方——基础模型端——它能在同类框架的散布范围内复现已发表的参考值和读数,在单个节点上运行相同套件时速度更快,并能在节点间近乎线性地扩展。其独特价值在于诊断:因为每一层都写入同一个共享追踪,始于某一层并在另一层显现的回归可以在该追踪上定位——这是任何按片段分工的测试工具联邦都无法实现的跨层收益。 ††footnotetext:通讯作者:Jie Chen,邮箱:[email protected] ![[未标注图片]](https://arxiv.org/html/2606.17574v1/x1.png)DeepInsight: 跨越物理AI堆栈的统一评估基础设施Siyi Li, Chunyu Sun, Jiahao Zhang, Yuchen Kang, Wuliang Wang, Yu Qiu, Rui Jiang, Haitao Cui, Jie Chen†XPENG Robotics ## 1 引言 物理AI堆栈的评估在其必须驱动的操作符层面上是异质的。工作负载的一端是基础模型:短episode——通常是一个解码步骤,有时是十几个工具调用轮次——由吞吐量受限的推理驱动,并通过精确匹配或基于模型的判断来评分。另一端是全身控制策略:跨越数百到数千个物理滴答的episode,由物理约束的模拟驱动,并通过关于平衡、接触和跟踪的轨迹分析条件来评分。在这两个端点之间,存在一系列具身评估需求——操作策略、导航堆栈等。本文介绍了DeepInsight,一个在单一运行时上服务于这一完整频谱的评估基础设施。DeepInsight不是对物理AI的通用定义;它是针对特定具身人形机器人堆栈的评估基础。遵循近期工业人形机器人[10],我们将此堆栈分为三层:语义目标推理(System 2,基础模型评估)、视觉运动策略执行(System 1,导航/操作评估)以及全身稳定与控制(System 0,全身控制评估)。图1勾勒了该堆栈;DeepInsight在生产环境中服务于所有三层的评估。本文中我们使用“物理AI”作为该评估频谱的标签,意指上述操作符连续体。 参考图说明图 1: DeepInsight考虑的物理AI堆栈。 该频谱的异质性并非偶然;它是问题的工程实质。Episode长度跨越三个数量级以上,从单个解码步骤到数千个物理滴答。观察模态涵盖文本、图像、音频和连续物理状态。奖励语义范围从精确字符串匹配、基于模型的判断到轨迹分析终止。资源特征范围从GPU约束的模型推理,到I/O和CPU约束的沙盒执行,再到计算约束的并行模拟(可能是CPU或GPU驻留)。这些轴不可约——没有任何单一代表点能捕捉整个频谱——并且它们本质上是正交变化的:一个基础模型代理任务可能与一个操作策略共享episode长度,但资源特征却完全不同。在此频谱上构建单一评估基础设施意味着一种架构,它能在整个范围内吸收异质性,而不将一个片段的假设强加给另一个,并允许频谱上任一新任务通过扩展而非重实现来加入。 异质性本身并不强制要求统一评估基础设施;原则上可以为频谱的每个片段构建独立的测试工具,让它们独立发展。统一的理由在于,在部署的物理AI堆栈中,这些层的故障是耦合的。语义规划器的错误改变了视觉运动策略所见的分布;策略的犹豫改变了稳定器的运行状态;稳定器的恢复行为改变了上层可尝试的内容。在独立的测试工具中评估这些层保持了局部基准有效性,但破坏了诊断跨层回归所需的共享运行身份、资源核算和追踪连续性。因此,DeepInsight统一评估并非假装这些机制是同质的——显然不是——而是通过将异质性保留在共同的任务、资源和结果接口之后。 DeepInsight的架构围绕三个抽象组织,每个抽象旨在吸收频谱异质性的不同类别。**任务抽象**吸收episode形状、观察模态、奖励语义和终止的异质性,通过一个狭窄的`reset/step`接口和一个承载所有瞬态状态的每episode句柄,将整个频谱的任务表达在同一运行时上。**资源抽象**吸收后端资源特征和操作不规则性的异质性,将驱动评估成本的昂贵资源类别——语言模型推理和沙盒运行时(涵盖代码容器和物理模拟器)——与协调器解耦,使得任何后端的操作混乱不会消耗协调器的异步预算。**结果抽象**吸收各层事件类型的异质性,将运行时对话、判断器理由、资源层的租约和推理事件以及模拟器轨迹记录在同一个模式和一个身份方案下,使得聚合分数保持为其组成部分的可查询连接。每个抽象承担一项主要负载:任务抽象通过让异质episode共享一个运行时来承保覆盖范围,资源抽象通过将昂贵资源与协调器解耦来承保区域内吞吐量,结果抽象通过允许新事件类型和分析通过相同追踪接入来承保组合式可扩展性。 具体来说,本文捍卫的主张是:异质的物理AI评估工作负载可以由一个episode驱动、一个资源句柄协议和一个追踪身份方案承载,而不牺牲基准保真度、区域内吞吐量或在追踪上定位跨层回归的能力。 #### 贡献。 DeepInsight通过三个抽象——任务、资源和结果——吸收物理AI频谱的异质性,每个抽象都实现为每个子系统共享的一个不变量:一个episode驱动、一个资源句柄协议和一个追踪身份方案。在现有框架各自覆盖单一片段的地方,这三个不变量将频谱端到端地承载——从基础模型解码到全身控制——在单一运行时上。我们从两个部分来论证这一点,对应评估的两个方面: - **在存在同类工具的生产级能力。** 在基础模型端——唯一存在成熟同类协调器的片段——DeepInsight能在指定的误差预算内复现已发表的参考值和同类框架读数,在单个节点上运行相同套件时比最强的单区域基线更快,并能在节点间近乎线性地扩展;这些收益源于非片段特定的架构级机制(第4节)。 - **全堆栈覆盖与跨层诊断。** 同一运行时承载堆栈的其余部分,那里没有同类协调器存在:一系列案例研究涵盖闭环模拟和轨迹分析发布评估,并最终达到一个组合的系统2-1-0任务,其中始于某一层并在另一层显现的回归在其起源层被诊断——这是任何按片段分工的测试工具联邦都无法复现的单一共享追踪上的跨层定位(第5节)。 ## 2 相关工作 #### 物理AI堆栈上的基准。 具身人形机器人堆栈的每一层都有一个成熟、内部连贯的基准生态系统,由大多不相关的社区开发。映射到第1节中勾勒的操作频谱上,这些基准占据不同的片段而非共同基础。在系统2(System 2)端,静态知识推理QA——MMLU[14]、GSM8K[5]、HumanEval[3]——位于频谱的短episode、精确匹配、吞吐量受限的一端:每个样本一个解码步骤,确定性评分,以及LLM推理的资源特征。长期代理测试工具——SWE-bench[20]、GAIA[31]、OSWorld[49]、τ-bench[50]、WebArena[58]——向内一步:十到数百轮的episode,混合精确匹配和基于模型的判断,以及在LLM推理基础上增加沙盒运行时的资源特征。在系统1(System 1)端,视觉运动策略基准——CALVIN[30]、LIBERO[26]、Meta-World[52]、RLBench[19]、Open X-Embodiment[6]、SimplerEnv[23]——占据中间频带:几十到几百个控制步骤的episode,结合任务完成布尔值与轨迹特征的评分,以及以模拟而非推理为主的资源特征。在系统0(System 0)端,全身稳定性与移动——HumanoidBench[41]、RoboHive[22]、Isaac Lab[32]——锚定长episode、轨迹分析、物理受限的一端:每次rollout几百到数千个物理滴答,连续奖励,以及并行模拟为主要成本。每个基准在其片段内内部一致;跨片段的信号不可直接比较,因为产生它们的操作符并非同一操作符。激励DeepInsight的结构性观察更加简单:**没有一个单一基准能端到端覆盖整个频谱**,相邻片段之间的空白区域正是评估需求积累却没有共同基础的领域。 #### 评估协调框架。 一个平行的基础设施文献已经围绕如何规模化运行这些基准而出现,其中的每个框架都嵌入了在其片段内局部有效的假设。lm-evaluation-harness[42]假设短episode、静态数据集和确定性评分器;这使其在短episode、精确匹配片段高效,但与其它一切不兼容。OpenCompass[33]假设每个样本的成本可预测且阶段是同质的,这使其能静态分片到Slurm作业,但对于阶段成本动态或阶段异质的工作负载则不合格。HELM[24]在Scenario×Metric×Adapter抽象下组织42个场景,该抽象是方法论而非操作性的;其操作足迹仍限于文本和短期多模态QA。VLMEvalKit[9]和lmms-eval[56]将覆盖扩展到80-100+个视觉语言基准各,但继承了其文本前身的单次生成假设,仍锚定在短episode端。Inspect AI[43]放宽了该假设:其`Task = Dataset + Solver + Scorer`抽象与异步求解器-评分器执行使成为我们第4节短中期episode比较的最强开源基线,但`Task`契约仍限于基础模型评估,没有对长物理滴答episode或轨迹分析评分的第一类支持。从另一端看,Isaac Lab[32]为全身控制评估提供稳健的并行模拟基础设施,但它是模拟器框架,而非模型/沙盒/判断器协调框架:将语言模型代理或沙盒耦合任务带入其执行模型意味着跨越其抽象边界,而非扩展它。 表 1: 物理AI评估频谱在各协调框架中的覆盖范围。行是频谱轴;列是框架。勾号:第一类支持;半圆:部分覆盖或通过扩展支持;叉号:不支持或超出范围。DeepInsight在频谱的整个范围提供第一类支持;与单片段框架的对比是激励本文其余部分的结构性观察。 | 频谱轴 | lm-eval | OpenCompass | HELM | VLMEvalKit | lmms-eval | Inspect AI | DeepInsight |
|--------|---------|-------------|------|------------|-----------|------------|-------------|
| **Episode长度** | | | | | | | |
| ≤1步(单次解码) | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
| 2–50步(多轮、工具使用) | ✗ | ✗ | ✗ | ✗ | ✗ | ✓ | ✓ |
| 50–500步(沙盒代理、操作) | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✓ |
| ≥500个物理滴答(全身、移动) | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✓ |
| **奖励语义** | | | | | | | |
| 精确/对数似然/规则 | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
| 基于模型的判断 | ✗ | ✗ | ✗ | ✗ | ✗ | ✓ | ✓ |
| 轨迹分析(连续,环境内) | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✓ |
| **后端资源特征** | | | | | | | |
| 仅LLM推理 | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
| + 沙盒运行时 | ✗ | ✗ | ✗ | ✗ | ✗ | ✓ | ✓ |
| + 物理约束并行模拟 | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✓ |
| **输入模态** | | | | | | | |
| 文本 | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
| + 视觉 | ✗ | ✗ | ✓ | ✓ | ✓ | ✓ | ✓ |
| + 音频 | ✗ | ✗ | ✗ | ✓ | ✗ | ✓ | ✓ |
| + 物理状态 | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✓ |
| **执行模型** | | | | | | | |
| 多节点执行 | ✗ | ✓ | ✗ | ✗ | ✗ | ✗ | ✓ |
| 阶段解耦异步 | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✓ |
#### 差距的形状。 表1并非缺点列表:每个框架都在其机制内是精心设计的基础设施。它展示的是,这些框架采用的抽象本身是机制局部的——每个都由其片段的操作符假设塑造,每个在其外部都不合格。

相似文章

构建机器智能的物理AI层

arXiv cs.LG

# MIT林肯实验室提出"原理驱动基础模型":无需微调即可跨域泛化 MIT林肯实验室的研究人员提出了一种名为**"原理驱动基础模型"(principle-driven foundation models)**的新范式。与传统方法不同,该范式将信号理论物理原理(傅里叶分解、能量守恒、对称性)直接编码到模型中,而非依靠从大量配对数据集中学习统计相关性。 ## 核心思路 传统基础模型的训练范式通常需要: - 海量标注数据 - 跨域配对样本 - 针对下游任务的微调 而该研究另辟蹊径——**仅使用RF(射频)数据进行训练**,并将傅里叶分解、能量守恒、对称性等物理原理内嵌于模型架构本身,使模型能够捕捉信号在本质层面的通用特征,而非特定域的统计规律。 ## 关键结果 该模型的冻结编码器(frozen encoder)仅有 **199万参数**,却在以下条件下取得了令人瞩目的成绩: - **跨越15项多样化任务**,涵盖音频、图像、文本和视频四大模态 - **无需对目标域进行任何微调** - **平均准确率达到77.7%** ## 为何值得关注 | 特性 | 传统基础模型 | 原理驱动基础模型 | |------|------------|----------------| | 训练数据来源 | 多模态大规模配对数据 | 仅RF数据 | | 参数规模 | 通常数十亿级 | 仅199万 | | 跨域泛化 | 依赖微调 | 零样本迁移 | | 泛化依据 | 统计相关性 | 物理原理 | ## 深层意义 这项研究表明,**物理原理本身可以作为一种强大的归纳偏置(inductive bias)**,使模型在极低参数量和数据量的条件下实现跨模态泛化。这对于数据稀缺、计算资源受限的应用场景尤为重要,同时也为"可解释AI"提供了一条新路径——模型的泛化能力来源于可解释的物理规律,而非黑箱式的统计拟合。 该工作挑战了"规模即能力"的主流叙事,暗示在某些场景下,**结构化的物理先验知识可能比堆砌数据和参数更为高效**。

Evaluation Cards: 一种AI评估报告的解释层

Hugging Face Daily Papers

本文介绍了EvalCards,这是一种操作框架,通过将基准元数据、评估运行数据和模型元数据组合成一个统一记录,并包含可重现性、完整性、来源、风险和分数可比性的解释性信号,从而标准化AI评估报告。作者在数千个模型和基准测试中部署了一个监控工具,揭示了当前报告实践中的系统性差距。