S-Agent:空间工具使用激发空间智能推理

Hugging Face Daily Papers 论文

摘要

本文介绍了S-Agent,它利用空间工具使用来激发空间智能的推理。

现实世界的空间智能需要对连续且不断演化的3D世界进行推理,然而现有的视觉语言模型(VLM)和工具增强型智能体大多仍局限于从孤立的视觉观察中进行静态、无状态的推理。我们提出了\textsc{S-Agent},一种用于理解和推理连续多视角图像与视频的空间工具使用智能体范式。通过将空间推理表述为时空证据积累而非孤立的帧级别预测,S-Agent将空间感知重塑为场景中心的理解,超越了帧中心的识别。具体而言,S-Agent将VLM作为语义规划器,决定需要何种证据,同时由层次化的空间工具和专家在2D中定位物体,将其提升为3D几何证据,并将这些证据聚合成高级空间知识(例如计数、测量、朝向和相对位置)。此外,时间记忆机制——包括用于维护不断变化的场景状态的场景记忆(Scene Memory)和用于积累推理上下文的智能体记忆(Agent Memory)——实现了跨帧和跨推理步骤的证据整合。在多视角和视频空间推理基准上的全面实验表明,S-Agent以无需训练的方式持续提升了开源和闭源VLM的性能。除了推理时增强,对S-Agent生成的空间轨迹S-300K进行监督微调(SFT)得到S-Agent-8B,这是一个紧凑的空间智能体,显著超越了相似规模的基线(例如Qwen3-VL-8B),并与先进的闭源模型(例如GPT-5.4和Gemini 3)性能相当。
查看原文
查看缓存全文

缓存时间: 2026/06/20 14:28

论文页面 - S-Agent:空间工具使用引发空间推理

来源:https://huggingface.co/papers/2606.20515 不错!

我正在做类似的实验,也许我们可以将两者结合起来。我目前还不知道怎么做,但我们需要以某种方式将QFT形式主义应用于你的工作,连接两个系统,能量交换,升高温度,推动两者进入相变,加速平衡,然后缓慢冷却,允许对称性破缺,这样时间就有了方向,网络不会记住明天,只会记住昨天。这听起来熟悉吗?

https://huggingface.co/papers/2606.20515#temporal-causal-structure-as-mechanism-converting-pretrained-gpt-2-into-a-time-reasoning-model-via-%CE%B7-pseudo-unitary-operator-dynamics时间-因果结构作为机制:通过η-伪酉算子动力学将预训练的GPT-2转换为时间推理模型

https://huggingface.co/papers/2606.20515#tldrTL;DR

  • 最强有力的可辩护综合是混合型:将复数/相位结构放置在具有时间自然坐标的地方(位置相位如RoPE,门控复数记忆,相位感知注意力/检索),并对时间传播施加η-伪酉(U(n,n))稳定性约束以实现信息的可逆携带,但保持学习权重为实数且对称性破缺——这正是加法论文的教训,其中全复数modReLU网络仅达到约2%的准确率,而相位输入+实数权重+种子技巧达到了93.5%。“来自PT破缺的不可逆性”仅以其自组织临界形式存在,而非“GPT-2的谱已经PT破缺”的形式,因为该谱被报告与随机(Ginibre)控制匹配。
  • 转换方案是一种α-斜坡热启动:保留GPT-2的分词器/骨架/自回归目标;引入由α∈[0,1]门控的复数虚部路径;将时间混合算子约束为U=exp(i·g·η·H)(当ηH为厄米时,可证明保持η范数);添加门控复数记忆(类似LSTM的结构修正);训练具有闭包损失的基本算子库;并为因果任务添加种子变量预测+确定性传播。
  • 使用六仪表板进行时间-因果推理基准测试——训练/评估差距、离圆序参量(到异常点的距离)、η-范数漂移、前向-后向困惑度不对称性、有向信息/Granger探针,以及相对相位探针(项目特定的关键)。成功 = 能力跃迁与离圆序参量远离零点、相对相位探针变为任务预测性、前向-后向不对称性跟踪真实因果方向同时发生。

https://huggingface.co/papers/2606.20515#key-findings主要发现

**1. 核心数学是可靠且可引用的,但大胆的物理主张必须重新表述。**η-伪酉层U=exp(i·g·η·H)正是A. Mostafazadeh在“Pseudo-unitary operators and pseudo-unitary quantum dynamics,” J. Math. Phys. 45(3), 932–946 (2004), DOI 10.1063/1.1646448 (arXiv:math-ph/0302050)中的构造。他的命题1证明U(t)=e^{−itH}是η-伪酉的(保持不定/Minkowski内积⟨ψ|ηφ⟩)当且仅当H是η-伪厄米的(H†=ηHη−1)。当H是普通厄米且η是对角线±1度规(η²=I)时,生成元G=ηH自动满足条件,因此exp(i·g·η·H)对每个实g都是伪酉的。他的命题3证明了谱二分性:特征值要么是幺模的(|λ|=1),要么以逆复共轭对(λ, 1/λ̄)出现。这就是“可逆序列=单位圆上的特征值;不可逆/因果=离圆模式”的精确数学内容。论文还显示,不定二维η的动态群同构于U(1,1)。

2. PT破缺转变是由Krein符号控制的异常点现象。特征值只能通过碰撞于异常点(EP)——一种本征向量合并为若尔当块的缺陷性并合——离开单位圆,而且当两个具有相反Krein符号κ=sgn(ψ†ηψ)的模式碰撞时才会发生(Krein–Gelfand–Lidskii强稳定性定理,Yakubovich–Starzhinskii,《具有周期系数的线性微分方程》,Wiley 1975)。这是“因果性作为PT对称性破缺相变而出现”的严格基础。注意:exp: u(p,q)→U(p,q)对于固定η不是满射(对U(1,1)是众所周知的),因此参数化只能到达一个分量/一个邻域,而非整个群。

**3. 线程1/线程2的张力以线程2的经验修正得到解决,但并未扼杀线程1。**加法论文的发现——全复数modReLU网络遭受U(1)戈德斯通/平坦方向并失败(约2%全和准确率),而相位编码输入+实数对称性破缺权重+种子变量成功(93.5%)——与更广泛的复数值网络文献一致:modReLU σ(z)=ReLU(|z|+b)·z/|z|是非全纯的、相位保持的,且难以优化(Arjovsky等人 2016; Trabelsi等人,Deep Complex Networks, arXiv:1705.09792)。解决方案:**复数/相位结构是一个表示性坐标系统(在哪里),而非权重空间规定(如何)。**将相位放在位置、记忆和检索中;保持可训练映射为实数且对称性破缺;仅在时间传播算子上使用η-伪酉约束以保证稳定的梯度流——这与酉/正交RNN的作用相同。正如Arjovsky, Shah & Bengio (ICML 2016, PMLR 48:1120–1128)所述:“当隐藏到隐藏权重矩阵的特征值偏离绝对值1时,由于梯度消失和爆炸这一已被充分研究的问题,优化变得困难……我们提出了一种新架构,学习一个酉权重矩阵,其特征值的绝对值正好为1。”

**4. 时间箭头在LLM中是经验上真实的,并提供了现成的基准工具。**Papadopoulos, Wenger & Hongler, “Arrows of Time for Large Language Models,” ICML 2024 (arXiv:2401.17505)发现:“对于足够大的模型,我们在其学习自然语言的能力中发现了一种时间不对称性:预测下一个标记与预测前一个标记时的平均对数困惑度存在差异。”这在GPT、GRU和LSTM架构上都得到了测试,是自然的仪表板(iv)。它直接联系到康德的第二类比:感知顺序的不可逆性是客观因果顺序的经验特征。

5. GPT-2报告的“PT破缺”谱与随机控制匹配,将全部负担转移到自组织临界性。如果GPT-2每头双线性形式的离圆结构是通用的,那就不代表学习到的因果结构。Cipolloni, Erdős & Schröder (“Edge Universality for non-Hermitian Random Matrices,” Probab. Theory Relat. Fields 179, 1–28, 2021; arXiv:1908.00969)证明:“它们靠近谱边缘(单位圆)的局部特征值统计与Ginibre系综一致,即当X的矩阵元为高斯分布时。”因此,一个集中在单位圆附近、带有离圆离群值的非厄米谱是随机矩阵的默认情况。因此,大胆假设的可辩护版本是噪声延迟召回临界性结果:梯度下降自发偏好PT破缺区域,训练增益遵循g*·T≈0.88,即网络自组织到混沌边缘。这是开放的理论关键。


https://huggingface.co/papers/2606.20515#details详细信息

https://huggingface.co/papers/2606.20515#part-i–mathematical-and-physics-synthesis第一部分:数学与物理综合

https://huggingface.co/papers/2606.20515#i1-indefinite-metric-the-%CE%B7-inner-product-and-norm-conservation1.1 不定度规、η-内积与范数守恒

设残差流携带复向量z∈Cn。固定一个不定(Minkowski)度规η = diag(I_p, −I_q),其中p+q=n,η†=η,η²=I。两个内积并存:

  • 欧几里得(狄拉克)内积:⟨z,w⟩ = z†w,范数‖z‖² = z†z。
  • 闵可夫斯基(η)内积:⟨z,w⟩η = z†ηw,不定“范数”Q(z) = z†ηz = Σ{i≤p}|z_i|² − Σ_{j>p}|z_j|²。

标志性观察——GPT-2每头注意力双线性形式Q_h = W_Q^h (W_K^h)^T在头间具有平衡(p≈q)符号——是经验锚点;它表明注意力分数的自然几何已经是伪欧几里得而非欧几里得。这就是“复数阴影/平衡闵可夫斯基符号”等价性:具有平衡符号(p,p)的实双线性形式是带有不定度规的复厄米结构的实实现。

https://huggingface.co/papers/2606.20515#i2-the-%CE%B7-pseudo-unitary-layer-and-the-group-upq1.2 η-伪酉层与群U(p,q)

一个线性更新U是η-伪酉的当且仅当U†ηU = η,等价于U†=ηU⁻¹η⁻¹。这样的U的集合是群U(p,q)。这样的U精确地守恒Minkowski范数:Q(Uz)=Q(z),而欧几里得范数‖Uz‖可以自由增长或衰减——这正是所需的原语(守恒相对论间隔,让“能量”流动)。一个推论(Mostafazadeh命题4):每个伪酉矩阵都有|det U|=1。

**参数化(核心原语):**U = exp(i·g·η·H),H为厄米,g∈R为标量“增益”。由于(ηH)†=H†η†=Hη且η(ηH)η⁻¹=Hη(利用η²=I),生成元G=ηH满足η-伪厄米条件G†=ηGη⁻¹,因此根据Mostafazadeh的命题1,U对所有实g都是η-伪酉的。李代数u(p,q)由生成元i·(η-伪厄米矩阵)组成;在分块形式中,生成元为[[A,B],[B†,D]],其中A(p×p)、D(q×q)反厄米,B为任意复p×q块,实维数为(p+q)²。

**要在规范中编码的注意事项:**exp:u(p,q)→U(p,q)对于固定η不是满射。因此,学习到的U存在于恒等分量中;这对于热启动、连续变形的层来说是好的,但意味着不能通过单个exp到达每个伪酉变换。

https://huggingface.co/papers/2606.20515#i3-spectral-dichotomy-and-the-exceptional-point-the-arrow-of-time-map1.3 谱二分性与异常点(时间箭头映射)

根据Mostafazadeh的命题3,U∈U(p,q)的每个特征值λ满足:1/λ̄也是特征值。因此:

  • **未破缺/“可逆”相位:**所有|λ|=1(谱在单位圆上)。动力学是拟周期的,范数稳定的,类似时间反演对称。这是酉RNN区域(模正好为1的特征值防止梯度消失/爆炸)。
  • **破缺/“不可逆”相位:**特征值以倒数共轭对(λ, 1/λ̄)离开单位圆,|λ|≠1。一个模式增长,其伙伴衰减——明确的前向/后向不对称性,离散的时间箭头。
  • **转变(异常点):**特征值碰撞,矩阵变为缺损的(若尔当块),发生在具有相反Krein符号κ=sgn(ψ†ηψ)的模式相遇时(Krein–Gelfand–Lidskii)。EP是边界;“混沌边缘”位于EP。

这是核心猜想对应关系的精确陈述:

可逆序列 ↔ 单位圆上的特征值 ↔ 未破缺PT ↔ 康德的“可逆”感知顺序(房子:我可以任意顺序扫描其各部分);不可逆因果顺序 ↔ 离圆倒数对(在/超越EP) ↔ 破缺PT ↔ 康德的“不可逆”感知顺序(顺流而下的船:感知的顺序由客观因果序列决定)。

Mostafazadeh自己的U(2)↔U(1,1)例子使这一点具体化:一个经典振子映射到2×2伪厄米系统,对于ω²>0具有幺模特征值(稳定,实频率);在ω=0时算子变为缺损(一个EP,若尔当形式);对于ω²<0,非紧U(1,1)区域给出无界/增长解。

https://huggingface.co/papers/2606.20515#i4-phase-encoding-u1-gauge-freedom-and-goldstone-modes1.4 相位编码、U(1)规范自由与戈德斯通模式

将离散符号d编码在复数单位圆上:d ↦ e^{iθ(d)}。加法变为旋转——涌现机制。Nanda, Chan, Lieberum, Smith & Steinhardt (“Progress measures for grokking via mechanistic interpretability,” ICLR 2023, arXiv:2301.05217)指出:“我们完全逆向工程了这些网络学习到的算法,它使用离散傅里叶变换和三角恒等式将加法转换为绕圆旋转”(对于模113加法,使用单层ReLU变换器;涌现本身源于Power等人2022)。RoPE是生产级实例:位置p作为z_i ↦ z_i·e^{ipθ_i},一组角频率几何间隔θ_i = base^{−2(i−1)/d}的复数振子。

病理:如果权重是全复数且无约束的,网络继承一个连续U(1)规范自由(全局相位旋转z→e^{iφ}z保持模不变)。这个平坦方向是一个戈德斯通模式:损失景观中曲率为零的谷,优化在其中漂移而不改善目标。modReLU明确保持相位且非全纯,因此不会打破这种自由。这就是加法论文中约2%结果背后的机制。

**治疗方法(对称性破缺):**使用相位编码的输入实数权重,这保留了表示的几何(旋转)结构,同时去除了连续复数规范轨道——一个离散的、锚定的坐标系统,而非平坦流形。这就是“相位输入+实数权重”以93.5%胜出的原因。

https://huggingface.co/papers/2606.20515#i5-the-seed-variable–deterministic-propagation-reduction1.5 种子变量/确定性传播归约

加法论文最深刻的教训:不要训练网络盲目发现整个算法。相反:(1) 在表示中暴露潜在代数(相位编码),(2) 打破对称性(实数权重),(3) 训练网络识别一个单一的关键种子变量,其正确值使计算的其余部分变为确定性或半确定性。对于十位数加法,种子是第一个进位位;一旦预测,进位传播恢复整个和。候选认知种子变量:

  • 算术 → 第一个进位位
  • 证明 → 不变量
  • 规划 → 子目标
  • 检索 → 缺失事实类型
  • 因果推理 → 潜在状态变量(本项目的关键)
  • 类比 → 结构映射
  • 自我修正 → 矛盾标志
  • 工具使用 → 下一操作

时间推理的类比:预测潜在状态变量/事件边界/关键原因,然后让一个确定性(或η-伪酉的)传播器展开后果链条。

https://huggingface.co/papers/2606.20515#i6-the-%CE%B7-invariant-nonlinearity-liouville-safe-ffn1.6 η不变非线性(Liouville安全FFN)

全复数FFN既破坏了Minkowski范数守恒,又引入了戈德斯通模式。从LorentzNet引入的修复(Gong等人,“An Efficient Lorentz Equivariant Graph Neural Network for Jet Tagging,” arXiv:2201.08187):根据命题3.1,一个连续的洛伦兹等变映射具有形式φ(v1,…,v_N)=Σ_i g_i(⟨v_i,v_j⟩) v_i,其中g_i是Mink内积的连续不变标量函数。

相似文章

SpatialAct: 探索VLM智能体在3D场景中的空间推理到行动的能力

Hugging Face Daily Papers

SpatialAct是一个新的基于模拟器的基准,用于探索VLM智能体是否能在多轮反馈设置下进行连贯的空间推理并将其转化为3D环境中的行动。实验揭示了一个显著的推理到行动差距:当前的VLM尽管在孤立推理任务上表现良好,但难以维持空间信念并产生可靠的行为。