标签
有人利用 Claude Code 创建了一个工具,能从现有的图像捕捉生成真正的交互式 3D 房产导览,旨在取代 Matterport 这类昂贵的硬件和订阅服务。
本文介绍了TT4D,这是一种新颖的Pipeline和大规模数据集,旨在从单目视频中重建乒乓球比赛的4D场景。该方案采用独特的“先升维”策略,在进行时间分割之前,先估计乒乓球的3D轨迹和旋转,从而即使在存在遮挡的情况下也能实现稳健的重建。
AnyRecon 提出了一种可扩展框架,利用具备持久场景记忆与几何感知条件的视频扩散模型,从任意稀疏输入进行 3D 重建。
LingBot-Map is an AI model that can convert real-time video streams into real-time 3D reconstruction, running at 20 FPS with complete code and models provided.
LingBot-Map 是一个前馈式 3D 基础模型,用于流式 3D 重建,采用几何上下文转换器架构,在超过 10,000 帧的长序列上实现最先进的性能,并具有高效的 ~20 FPS 推理速度。
GlobalSplat 引入了一种高效的前馈框架,用于三维高斯散射,通过全局场景标记实现紧凑且一致的场景重建,将计算开销和推理时间降低至78毫秒以下。该方法采用从粗到细的训练策略,防止表示膨胀,同时以显著更少的高斯原语(16K)达到有竞争力的新视角合成性能,与密集基线相比更为高效。
介绍了 LingBot-Map,这是一种前馈式 3D 基础模型,采用几何上下文 Transformer 架构用于流式 3D 重建,能够在 20 FPS 的速率下实现稳定的实时性能。
HY-World 2.0 是腾讯开源的跨模态3D世界模型,能够从文本、图像和视频中重建和生成3D世界,生成可编辑的3D资产(网格/高斯泼溅),效果与闭源方法相当。
MIT研究人员开发了一种由生成式AI增强的无线视觉系统,该系统利用毫米波信号重建隐藏物体及完整房间场景,突破了以往在形状重建方面的局限性,为仓储机器人与智能家居应用带来了新的可能性。