facebook/VGGT-Omega
摘要
Meta AI 和牛津大学 VGG 发布了 VGGT-Omega,这是一个用于 3D 视觉的基础模型,附有项目页面和 GitHub 仓库。
查看缓存全文
缓存时间: 2026/05/19 18:34
facebook/VGGT-Omega · Hugging Face
来源:https://huggingface.co/facebook/VGGT-Omega 项目页面(http://vggt-omega.github.io/)GitHub 仓库(https://github.com/facebookresearch/vggt-omega)
Meta AI Research(https://ai.facebook.com/research/);牛津大学 VGG(https://www.robots.ox.ac.uk/~vgg/)
Jianyuan Wang(https://jytime.github.io/),Minghao Chen(https://silent-chen.github.io/),Shangzhan Zhang(https://scholar.google.com/citations?user=FUDsZkEAAAAJ&hl=zh-CN),Nikita Karaev(https://nikitakaraevv.github.io/),Johannes Schönberger(https://demuc.de/),Patrick Labatut(https://scholar.google.com/citations?user=IJidh-UAAAAJ&hl=fr),Piotr Bojanowski(https://scholar.google.com/citations?user=lJ_oh2EAAAAJ&hl=en),David Novotny(https://d-novotny.github.io/),Andrea Vedaldi(https://www.robots.ox.ac.uk/~vedaldi/),Christian Rupprecht(https://chrirupp.github.io/)
https://huggingface.co/facebook/VGGT-Omega#quick-start快速开始
请参考我们的GitHub 仓库(https://github.com/facebookresearch/vggt-omega)
https://huggingface.co/facebook/VGGT-Omega#citation引用
如果您觉得我们的仓库有用,欢迎给 ⭐ 并引用我们的论文:
@inproceedings{wang2026vggtomega, title={VGGT-{$\Omega$}}, author={Wang, Jianyuan and Chen, Minghao and Zhang, Shangzhan and Karaev, Nikita and Sch{\"o}nberger, Johannes and Labatut, Patrick and Bojanowski, Piotr and Novotny, David and Vedaldi, Andrea and Rupprecht, Christian}, booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition}, year={2026} }
相似文章
Nvidia Cosmos 3
NVIDIA 开源了 Cosmos 3,这是一个物理AI的前沿基础模型,将推理、世界生成和动作生成统一在单一的 Mixture-of-Transformers 架构中,并发布了用于机器人、自动驾驶和仓库监控的模型检查点、数据集和训练脚本。
@AdinaYakup: @Open_MOSS 发布 MOSS-VL 视觉模型:https://huggingface.co/collections/OpenMOSS-Team/moss-vl… 演示:https://hug…
Open_MOSS 开源 110 亿参数 Apache 2.0 视觉-语言模型 MOSS-VL,采用交叉注意力与 XRoPE,在 VSI-bench 上比 Qwen3-VL-8B 高 8.3 分。
刚刚开源 FastVLA
FastVLA,一款开源视觉-语言-动作模型,现可在 L4 GPU 上实现 5 Hz 机器人控制。
GPT-4V(ision) 系统卡
OpenAI 发布了 GPT-4V(ision) 的系统卡,详细说明其安全属性和评估结果。GPT-4V(ision) 在 GPT-4 的基础上增加了图像输入功能,支持多模态指令跟随和视觉分析。
欢迎 NVIDIA Cosmos 3:首个用于物理AI推理与行为的开放全能模型
NVIDIA Cosmos 3 是一个面向物理AI的开放全能模型,它将世界生成、推理和行为生成统一到一个模型中,现已可在 Hugging Face 上获取,并提供多种资源。