标签
SplatWeaver 是一种前馈新视角合成框架,它根据空间复杂度动态分配 3D 高斯基元,相比固定分配方法提升了渲染质量与效率。该框架利用基数高斯专家和高频先验引导的像素级路由方案,自适应地在复杂与平滑的场景区域间分配基元。
本文介绍了 BalCapRL,这是一种针对多模态大语言模型(MLLM)的平衡强化学习框架,旨在联合优化图像描述生成中的准确性、覆盖率和语言质量。通过奖励解耦和长度条件屏蔽来解决实用性与流畅性之间的权衡,该方法在性能上优于现有方法。
SCOPE 是一个基于规范引导的文生图框架,通过追踪语义承诺以更好地满足复杂的视觉意图。该框架引入了 Gen-Arena 基准测试,并在复杂的生成任务中展现了强大的性能。
本文介绍了gammaILP,一个完全可微的框架,能够直接从图像数据中学习一阶规则,且无标签泄露,解决了符号接地和谓词发明等挑战。
本文介绍了 Relit-LiVE,这是一种新颖的视频重光照框架。它利用原始参考图像和联合环境视频预测,在无需相机姿态信息的情况下生成物理一致的结果。
本文提出ContactPrompt,一种利用多模态大语言模型进行密集手部接触估计的免训练零样本方法,无需训练即优于监督方法。
本文通过验证具有相同标签的图像之间的环路是否可以由保持标签不变的曲面填充,实证研究了图像分类器的决策区域是否为单连通区域。
SwiftI2V 是一个新颖的高效框架,用于高分辨率图像到视频的生成,它采用条件分段生成技术,在显著降低计算成本的同时实现了 2K 分辨率的合成。该框架使得在单个消费级或数据中心 GPU 上进行实用的生成成为可能,同时保持了输入的保真度。
本文介绍了连续时间分布匹配(CDM),这是一种用于少步扩散蒸馏的方法,它通过将优化过程从离散迁移到连续,提高了视觉保真度并保留了精细细节。
一位用户分享了关于SAM 3.1的热情反馈:仅用'worm'等简单文本提示即可精准分割图像,相比SAM 1有显著提升。
FaithfulFaces 是一种新的文本到视频生成框架,通过姿态共享对齐和欧拉角嵌入,在姿态变化和遮挡情况下保持面部身份的一致性。
本文介绍了 StableI2I,这是一种无需参考图像的评估框架,用于评估图像到图像生成任务中的内容保真度和一致性。此外,本文还提出了 StableI2I-Bench,一个用于评估多模态语言模型在这些评估任务上表现的基准。
本文介绍了上下文稀疏注意力(ISA),这是一种通过裁剪冗余上下文和使用动态查询分组来显著降低视频编辑计算成本的框架。作者通过 LIVEditor 证明了该方法的有效性,在多个视频编辑基准测试中实现了近乎无损的加速和最新的技术结果。
Codex Desktop 通过构建应用、利用视觉能力分析布局,并不断迭代直至完美,实现了 UI/UX 设计的自动化。
本文介绍了TT4D,这是一种新颖的Pipeline和大规模数据集,旨在从单目视频中重建乒乓球比赛的4D场景。该方案采用独特的“先升维”策略,在进行时间分割之前,先估计乒乓球的3D轨迹和旋转,从而即使在存在遮挡的情况下也能实现稳健的重建。
MoCapAnything V2 提出了一种面向任意骨骼单目视频动作捕捉的完全端到端框架,通过联合优化视频到姿态以及姿态到旋转的预测,解决旋转歧义性问题。
本文介绍了 FD-loss,一种通过将总体规模与批次规模解耦,从而将 Fréchet 距离作为视觉生成的训练目标进行优化的方法。研究证明该方法能提高生成器的质量,并指出 FID 可能无法始终准确反映视觉质量。
来自麻省理工学院(MIT)、伍斯特理工学院(WPI)和 Google 的研究人员提出了 WRING,这是一种用于视觉语言模型(VLM)的新型后处理去偏方法,旨在避免在消除特定偏见时放大其他偏见的“打地鼠困境”。
Tuna-2 是一个统一的多模态模型,通过直接从像素嵌入处理视觉理解与生成任务,无需预训练视觉编码器,达到了最先进的性能水平。