UniT:基于分组自回归Transformer的统一几何学习

Hugging Face Daily Papers 论文

摘要

UniT是一种统一的几何感知前馈模型,采用分组自回归Transformer,集成了多种范式(在线/离线、多模态、长时域),同时通过自适应尺度损失和队列式KV缓存保持度量尺度精度。它在涵盖七个任务的十个基准上取得了最先进性能。

近期前馈模型在从传感器观测数据推断密集3D结构的几何感知方面取得了显著进展。然而,其关键能力仍然分散在多个不兼容的范式之中,包括在线感知、离线重建、多模态融合、长时域可扩展性和度量尺度估计。我们提出了UniT,一种基于新颖分组自回归Transformer构建的统一模型,它将这些看似不同的能力重新整合到单一框架中。核心思想是将传感器观测分组视为基本自回归单元,并以无锚点和尺度自适应方式预测对应的点图。更具体地说,在线和离线场景中的多种视图配置在单个分组自回归过程中自然统一。通过改变分组大小,在线模式以单帧分组在多个自回归步骤中运行,而离线模式则在单次前向传递中聚合多帧分组。同时,一种队列式KV缓存机制确保了长时域上的有界自回归内存。这通过无锚点关系建模减少对早期帧的远距离依赖得以实现,从而允许在运行中丢弃过时内存。为了提升跨场景的度量尺度泛化能力,该框架进一步引入了自适应尺度几何损失。它将相对几何约束与部分绝对尺度项相结合,隐式地正则化全局尺度,并引导从尺度不变几何到度量尺度解的渐进过渡。结合用于融合辅助模态的专用模态注意力模块,UniT在统一几何感知中实现了最先进性能,在涵盖七个代表性任务的十个基准上得到了验证。
查看原文
查看缓存全文

缓存时间: 2026/05/21 06:20

论文页面 - UniT:基于分组自回归变换器的统一几何学习

来源:https://huggingface.co/papers/2605.21131

摘要

UniT 提出了一种统一的几何感知前馈模型,基于分组自回归变换器(Group Autoregressive Transformer),通过尺度自适应损失和队列式 KV 缓存机制在保持度量尺度精度的同时整合多种范式。

近期前馈模型在几何感知(https://huggingface.co/papers?q=geometry%20perception)方面取得了显著进展,用于从传感器观测(https://huggingface.co/papers?q=sensor%20observations)推断密集三维结构(https://huggingface.co/papers?q=dense%203D%20structure)。然而,其核心能力仍分散在多个互不兼容的范式中,包括在线感知(https://huggingface.co/papers?q=online%20perception)、离线重建(https://huggingface.co/papers?q=offline%20reconstruction)、多模态融合(https://huggingface.co/papers?q=multi-modal%20integration)、长时域可扩展性(https://huggingface.co/papers?q=long-horizon%20scalability)以及度量尺度估计(https://huggingface.co/papers?q=metric-scale%20estimation)。我们提出 UniT,这是一个基于新型分组自回归变换器(https://huggingface.co/papers?q=Group%20Autoregressive%20Transformer)的统一模型(https://huggingface.co/papers?q=unified%20model),它将这些看似不同的能力重新整合到单一框架中。其核心思想是将传感器观测(https://huggingface.co/papers?q=sensor%20observations)的分组视为基本的自回归单元(https://huggingface.co/papers?q=autoregressive%20units),并以无锚点(https://huggingface.co/papers?q=anchor-free)和尺度自适应(https://huggingface.co/papers?q=scale-adaptive)的方式预测对应的点图(https://huggingface.co/papers?q=point%20maps)。具体而言,在线与离线场景中多样的视图配置自然地统一到单一的分组自回归过程中。通过改变分组大小,在线模式以单帧分组在多个自回归步骤中运行,而离线模式则在单次前向传播中聚合多帧分组。同时,一种队列式 KV 缓存(https://huggingface.co/papers?q=queue-style%20KV%20caching)机制确保了长时域下的有界自回归内存。这是通过减少对早期帧的长期依赖来实现的,即采用无锚点(https://huggingface.co/papers?q=anchor-free)关系建模,从而允许过时的内存被即时丢弃。为了提升跨场景的度量尺度泛化能力,该框架中还引入了尺度自适应几何损失(https://huggingface.co/papers?q=scale-adaptive%20geometry%20loss)。它将相对几何约束(https://huggingface.co/papers?q=relative%20geometric%20constraints)与部分绝对尺度项(https://huggingface.co/papers?q=absolute%20scale%20term)相结合,隐式地正则化全局尺度,并引发从尺度不变几何到度量尺度解的渐进过渡(https://huggingface.co/papers?q=progressive%20transition)。结合用于集成辅助模态的专用模态注意力模块(https://huggingface.co/papers?q=modal%20attention%20module),UniT 在统一几何感知(https://huggingface.co/papers?q=geometry%20perception)中取得了最先进的性能,并在涵盖七个代表性任务的十个基准上得到验证。

查看 arXiv 页面(https://arxiv.org/abs/2605.21131) 查看 PDF(https://arxiv.org/pdf/2605.21131) 项目页面(https://sc2i-hkustgz.github.io/UniT/) GitHub2(https://github.com/Wang-xjtu/UniT) 添加至收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.21131)

在您的代理中获取本论文:

hf papers read 2605.21131

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用本论文的模型 0

没有模型链接本论文

在模型 README.md 中引用 arxiv.org/abs/2605.21131 即可从此页面链接。

引用本论文的数据集 0

没有数据集链接本论文

在数据集 README.md 中引用 arxiv.org/abs/2605.21131 即可从此页面链接。

引用本论文的 Spaces 0

没有 Space 链接本论文

在 Space README.md 中引用 arxiv.org/abs/2605.21131 即可从此页面链接。

包含本论文的收藏集 0

没有包含本论文的收藏集

将此论文添加至一个收藏集(https://huggingface.co/new-collection)即可从此页面链接。

相似文章

迈向一致视频几何估计

Hugging Face Daily Papers

ViGeo是一个基于Transformer的基础模型,使用动态分块注意力和基于补全的数据精炼框架,从视频中恢复密集且一致的3D几何,在多项任务上实现了最先进的性能。

RelGT-AC:用于关系数据库中自动补全任务的关系图变换器

arXiv cs.AI

本文介绍了RelGT-AC,一种专门为关系数据库中的自动补全任务设计的关系图变换器架构。该模型在RelGT架构基础上扩展了列掩码以防止平凡解、用于多种预测类型的统一任务头,以及利用词汇信号的TF-IDF文本编码器,在RelBench v2基准测试上取得了显著优于基线的改进。

用于流式 3D 重建的几何上下文 Transformer

Papers with Code Trending

介绍了 LingBot-Map,这是一种前馈式 3D 基础模型,采用几何上下文 Transformer 架构用于流式 3D 重建,能够在 20 FPS 的速率下实现稳定的实时性能。