UniT：基于分组自回归Transformer的统一几何学习

Hugging Face Daily Papers 2026/05/20 00:00 论文

摘要

UniT是一种统一的几何感知前馈模型，采用分组自回归Transformer，集成了多种范式（在线/离线、多模态、长时域），同时通过自适应尺度损失和队列式KV缓存保持度量尺度精度。它在涵盖七个任务的十个基准上取得了最先进性能。

近期前馈模型在从传感器观测数据推断密集3D结构的几何感知方面取得了显著进展。然而，其关键能力仍然分散在多个不兼容的范式之中，包括在线感知、离线重建、多模态融合、长时域可扩展性和度量尺度估计。我们提出了UniT，一种基于新颖分组自回归Transformer构建的统一模型，它将这些看似不同的能力重新整合到单一框架中。核心思想是将传感器观测分组视为基本自回归单元，并以无锚点和尺度自适应方式预测对应的点图。更具体地说，在线和离线场景中的多种视图配置在单个分组自回归过程中自然统一。通过改变分组大小，在线模式以单帧分组在多个自回归步骤中运行，而离线模式则在单次前向传递中聚合多帧分组。同时，一种队列式KV缓存机制确保了长时域上的有界自回归内存。这通过无锚点关系建模减少对早期帧的远距离依赖得以实现，从而允许在运行中丢弃过时内存。为了提升跨场景的度量尺度泛化能力，该框架进一步引入了自适应尺度几何损失。它将相对几何约束与部分绝对尺度项相结合，隐式地正则化全局尺度，并引导从尺度不变几何到度量尺度解的渐进过渡。结合用于融合辅助模态的专用模态注意力模块，UniT在统一几何感知中实现了最先进性能，在涵盖七个代表性任务的十个基准上得到了验证。

查看原文

查看缓存全文

缓存时间: 2026/05/21 06:20

论文页面 - UniT：基于分组自回归变换器的统一几何学习

来源：https://huggingface.co/papers/2605.21131

摘要

UniT 提出了一种统一的几何感知前馈模型，基于分组自回归变换器（Group Autoregressive Transformer），通过尺度自适应损失和队列式 KV 缓存机制在保持度量尺度精度的同时整合多种范式。

近期前馈模型在几何感知（https://huggingface.co/papers?q=geometry%20perception）方面取得了显著进展，用于从传感器观测（https://huggingface.co/papers?q=sensor%20observations）推断密集三维结构（https://huggingface.co/papers?q=dense%203D%20structure）。然而，其核心能力仍分散在多个互不兼容的范式中，包括在线感知（https://huggingface.co/papers?q=online%20perception）、离线重建（https://huggingface.co/papers?q=offline%20reconstruction）、多模态融合（https://huggingface.co/papers?q=multi-modal%20integration）、长时域可扩展性（https://huggingface.co/papers?q=long-horizon%20scalability）以及度量尺度估计（https://huggingface.co/papers?q=metric-scale%20estimation）。我们提出 UniT，这是一个基于新型分组自回归变换器（https://huggingface.co/papers?q=Group%20Autoregressive%20Transformer）的统一模型（https://huggingface.co/papers?q=unified%20model），它将这些看似不同的能力重新整合到单一框架中。其核心思想是将传感器观测（https://huggingface.co/papers?q=sensor%20observations）的分组视为基本的自回归单元（https://huggingface.co/papers?q=autoregressive%20units），并以无锚点（https://huggingface.co/papers?q=anchor-free）和尺度自适应（https://huggingface.co/papers?q=scale-adaptive）的方式预测对应的点图（https://huggingface.co/papers?q=point%20maps）。具体而言，在线与离线场景中多样的视图配置自然地统一到单一的分组自回归过程中。通过改变分组大小，在线模式以单帧分组在多个自回归步骤中运行，而离线模式则在单次前向传播中聚合多帧分组。同时，一种队列式 KV 缓存（https://huggingface.co/papers?q=queue-style%20KV%20caching）机制确保了长时域下的有界自回归内存。这是通过减少对早期帧的长期依赖来实现的，即采用无锚点（https://huggingface.co/papers?q=anchor-free）关系建模，从而允许过时的内存被即时丢弃。为了提升跨场景的度量尺度泛化能力，该框架中还引入了尺度自适应几何损失（https://huggingface.co/papers?q=scale-adaptive%20geometry%20loss）。它将相对几何约束（https://huggingface.co/papers?q=relative%20geometric%20constraints）与部分绝对尺度项（https://huggingface.co/papers?q=absolute%20scale%20term）相结合，隐式地正则化全局尺度，并引发从尺度不变几何到度量尺度解的渐进过渡（https://huggingface.co/papers?q=progressive%20transition）。结合用于集成辅助模态的专用模态注意力模块（https://huggingface.co/papers?q=modal%20attention%20module），UniT 在统一几何感知（https://huggingface.co/papers?q=geometry%20perception）中取得了最先进的性能，并在涵盖七个代表性任务的十个基准上得到验证。

查看 arXiv 页面（https://arxiv.org/abs/2605.21131）查看 PDF（https://arxiv.org/pdf/2605.21131）项目页面（https://sc2i-hkustgz.github.io/UniT/） GitHub2（https://github.com/Wang-xjtu/UniT）添加至收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.21131）

在您的代理中获取本论文：

hf papers read 2605.21131

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用本论文的模型 0

没有模型链接本论文

在模型 README.md 中引用 arxiv.org/abs/2605.21131 即可从此页面链接。

引用本论文的数据集 0

没有数据集链接本论文

在数据集 README.md 中引用 arxiv.org/abs/2605.21131 即可从此页面链接。

引用本论文的 Spaces 0

没有 Space 链接本论文

在 Space README.md 中引用 arxiv.org/abs/2605.21131 即可从此页面链接。

包含本论文的收藏集 0

没有包含本论文的收藏集

将此论文添加至一个收藏集（https://huggingface.co/new-collection）即可从此页面链接。

UniT：基于分组自回归Transformer的统一几何学习

论文页面 - UniT：基于分组自回归变换器的统一几何学习

摘要

引用本论文的模型 0

引用本论文的数据集 0

引用本论文的 Spaces 0

包含本论文的收藏集 0

相似文章

UniCorn：通过自生成监督走向自我改进的统一多模态模型

EVA01：通过混合变换器实现统一原生3D理解与生成

迈向一致视频几何估计

RelGT-AC：用于关系数据库中自动补全任务的关系图变换器

用于流式 3D 重建的几何上下文 Transformer

提交意见反馈