标签
Elon Musk 解释说,Tesla FSD 利用 AI 光子计数重建技术而非标准 RGB,从而在低光照和强眩光条件下实现更卓越的性能。
Microsoft 在 Hugging Face 上发布了 Phi-Ground-Any,这是一个用于 GUI 定位的 40 亿参数视觉模型,取得了最先进的结果,使 AI 智能体能够与屏幕元素进行精确交互。
这条社交媒体帖子表达了对 YOLOv3 目标检测模型回归或重新受到关注的兴奋之情。
特斯拉宣布其Vision视觉系统可检测到不可避免的碰撞,并提前最多70毫秒触发安全气囊,这一时间差可能意味着重伤与安然脱险的区别。
Andrej Karpathy 在 YouTube 免费发布了一堂计算机视觉讲座,涵盖图像描述、定位、分割和迁移学习,内容源于他在 Tesla 和 OpenAI 的生产实践经验。
本文介绍了 FoodCHA,这是一个专为细粒度食物分析设计的大语言模型多模态智能体框架,旨在解决饮食监测中的层级一致性和属性识别问题。
本学术论文介绍了一种基于人工智能的分析框架,利用现有的监控系统基础设施,评估交通软性干预措施对城市十字路口车辆速度和安全性所产生的影响。
本文介绍了困难负样本描述(HNC),这是一种数据集和方法,旨在通过解决网络采集的图文对中存在的弱关联问题,训练视觉-语言模型以实现细粒度理解。
本文介绍了gammaILP,一个完全可微的框架,能够直接从图像数据中学习一阶规则,且无标签泄露,解决了符号接地和谓词发明等挑战。
SwiftI2V 是一个新颖的高效框架,用于高分辨率图像到视频的生成,它采用条件分段生成技术,在显著降低计算成本的同时实现了 2K 分辨率的合成。该框架使得在单个消费级或数据中心 GPU 上进行实用的生成成为可能,同时保持了输入的保真度。
本文介绍了连续时间分布匹配(CDM),这是一种用于少步扩散蒸馏的方法,它通过将优化过程从离散迁移到连续,提高了视觉保真度并保留了精细细节。
一位用户分享了关于SAM 3.1的热情反馈:仅用'worm'等简单文本提示即可精准分割图像,相比SAM 1有显著提升。
本文介绍了 StableI2I,这是一种无需参考图像的评估框架,用于评估图像到图像生成任务中的内容保真度和一致性。此外,本文还提出了 StableI2I-Bench,一个用于评估多模态语言模型在这些评估任务上表现的基准。
本文介绍了上下文稀疏注意力(ISA),这是一种通过裁剪冗余上下文和使用动态查询分组来显著降低视频编辑计算成本的框架。作者通过 LIVEditor 证明了该方法的有效性,在多个视频编辑基准测试中实现了近乎无损的加速和最新的技术结果。
本文介绍了TT4D,这是一种新颖的Pipeline和大规模数据集,旨在从单目视频中重建乒乓球比赛的4D场景。该方案采用独特的“先升维”策略,在进行时间分割之前,先估计乒乓球的3D轨迹和旋转,从而即使在存在遮挡的情况下也能实现稳健的重建。
MoCapAnything V2 提出了一种面向任意骨骼单目视频动作捕捉的完全端到端框架,通过联合优化视频到姿态以及姿态到旋转的预测,解决旋转歧义性问题。
本文介绍了 FD-loss,一种通过将总体规模与批次规模解耦,从而将 Fréchet 距离作为视觉生成的训练目标进行优化的方法。研究证明该方法能提高生成器的质量,并指出 FID 可能无法始终准确反映视觉质量。
来自麻省理工学院(MIT)、伍斯特理工学院(WPI)和 Google 的研究人员提出了 WRING,这是一种用于视觉语言模型(VLM)的新型后处理去偏方法,旨在避免在消除特定偏见时放大其他偏见的“打地鼠困境”。