UniT:基于分组自回归Transformer的统一几何学习
摘要
UniT是一种统一的几何感知前馈模型,采用分组自回归Transformer,集成了多种范式(在线/离线、多模态、长时域),同时通过自适应尺度损失和队列式KV缓存保持度量尺度精度。它在涵盖七个任务的十个基准上取得了最先进性能。
查看缓存全文
缓存时间: 2026/05/21 06:20
论文页面 - UniT:基于分组自回归变换器的统一几何学习
来源:https://huggingface.co/papers/2605.21131
摘要
UniT 提出了一种统一的几何感知前馈模型,基于分组自回归变换器(Group Autoregressive Transformer),通过尺度自适应损失和队列式 KV 缓存机制在保持度量尺度精度的同时整合多种范式。
近期前馈模型在几何感知(https://huggingface.co/papers?q=geometry%20perception)方面取得了显著进展,用于从传感器观测(https://huggingface.co/papers?q=sensor%20observations)推断密集三维结构(https://huggingface.co/papers?q=dense%203D%20structure)。然而,其核心能力仍分散在多个互不兼容的范式中,包括在线感知(https://huggingface.co/papers?q=online%20perception)、离线重建(https://huggingface.co/papers?q=offline%20reconstruction)、多模态融合(https://huggingface.co/papers?q=multi-modal%20integration)、长时域可扩展性(https://huggingface.co/papers?q=long-horizon%20scalability)以及度量尺度估计(https://huggingface.co/papers?q=metric-scale%20estimation)。我们提出 UniT,这是一个基于新型分组自回归变换器(https://huggingface.co/papers?q=Group%20Autoregressive%20Transformer)的统一模型(https://huggingface.co/papers?q=unified%20model),它将这些看似不同的能力重新整合到单一框架中。其核心思想是将传感器观测(https://huggingface.co/papers?q=sensor%20observations)的分组视为基本的自回归单元(https://huggingface.co/papers?q=autoregressive%20units),并以无锚点(https://huggingface.co/papers?q=anchor-free)和尺度自适应(https://huggingface.co/papers?q=scale-adaptive)的方式预测对应的点图(https://huggingface.co/papers?q=point%20maps)。具体而言,在线与离线场景中多样的视图配置自然地统一到单一的分组自回归过程中。通过改变分组大小,在线模式以单帧分组在多个自回归步骤中运行,而离线模式则在单次前向传播中聚合多帧分组。同时,一种队列式 KV 缓存(https://huggingface.co/papers?q=queue-style%20KV%20caching)机制确保了长时域下的有界自回归内存。这是通过减少对早期帧的长期依赖来实现的,即采用无锚点(https://huggingface.co/papers?q=anchor-free)关系建模,从而允许过时的内存被即时丢弃。为了提升跨场景的度量尺度泛化能力,该框架中还引入了尺度自适应几何损失(https://huggingface.co/papers?q=scale-adaptive%20geometry%20loss)。它将相对几何约束(https://huggingface.co/papers?q=relative%20geometric%20constraints)与部分绝对尺度项(https://huggingface.co/papers?q=absolute%20scale%20term)相结合,隐式地正则化全局尺度,并引发从尺度不变几何到度量尺度解的渐进过渡(https://huggingface.co/papers?q=progressive%20transition)。结合用于集成辅助模态的专用模态注意力模块(https://huggingface.co/papers?q=modal%20attention%20module),UniT 在统一几何感知(https://huggingface.co/papers?q=geometry%20perception)中取得了最先进的性能,并在涵盖七个代表性任务的十个基准上得到验证。
查看 arXiv 页面(https://arxiv.org/abs/2605.21131) 查看 PDF(https://arxiv.org/pdf/2605.21131) 项目页面(https://sc2i-hkustgz.github.io/UniT/) GitHub2(https://github.com/Wang-xjtu/UniT) 添加至收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.21131)
在您的代理中获取本论文:
hf papers read 2605.21131
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本论文的模型 0
没有模型链接本论文
在模型 README.md 中引用 arxiv.org/abs/2605.21131 即可从此页面链接。
引用本论文的数据集 0
没有数据集链接本论文
在数据集 README.md 中引用 arxiv.org/abs/2605.21131 即可从此页面链接。
引用本论文的 Spaces 0
没有 Space 链接本论文
在 Space README.md 中引用 arxiv.org/abs/2605.21131 即可从此页面链接。
包含本论文的收藏集 0
没有包含本论文的收藏集
将此论文添加至一个收藏集(https://huggingface.co/new-collection)即可从此页面链接。
相似文章
UniCorn:通过自生成监督走向自我改进的统一多模态模型
UniCorn 是一个框架,通过使用多智能体系统进行提示生成、图像创建和质量评估,使统一多模态模型能够自我改进,在 TIIF、WISE 和 OneIG-EN 等文本到图像基准上取得了最先进的结果。
EVA01:通过混合变换器实现统一原生3D理解与生成
EVA01是一个统一框架,通过混合变换器架构将3D网格作为原生模态集成到多模态语言模型中,实现了先进的文本到3D生成以及长上下文多轮几何编辑。
迈向一致视频几何估计
ViGeo是一个基于Transformer的基础模型,使用动态分块注意力和基于补全的数据精炼框架,从视频中恢复密集且一致的3D几何,在多项任务上实现了最先进的性能。
RelGT-AC:用于关系数据库中自动补全任务的关系图变换器
本文介绍了RelGT-AC,一种专门为关系数据库中的自动补全任务设计的关系图变换器架构。该模型在RelGT架构基础上扩展了列掩码以防止平凡解、用于多种预测类型的统一任务头,以及利用词汇信号的TF-IDF文本编码器,在RelBench v2基准测试上取得了显著优于基线的改进。
用于流式 3D 重建的几何上下文 Transformer
介绍了 LingBot-Map,这是一种前馈式 3D 基础模型,采用几何上下文 Transformer 架构用于流式 3D 重建,能够在 20 FPS 的速率下实现稳定的实时性能。