computer-vision

#computer-vision

@elonmusk：人类感知的 RGB 图像为图 1，而特斯拉 AI 光子计数重建图像为图 2。这就是 Tesla FSD 能够……

X AI KOLs Following ↗ · 11小时前缓存

Elon Musk 解释说，Tesla FSD 利用 AI 光子计数重建技术而非标准 RGB，从而在低光照和强眩光条件下实现更卓越的性能。

0 人收藏 0 人点赞

#computer-vision

@elonmusk：Tesla AI Vision

X AI KOLs Following ↗ · 13小时前

简要提及 Tesla AI Vision，指的是特斯拉基于计算机视觉的自动驾驶方案。

0 人收藏 0 人点赞

#computer-vision

@HuggingPapers: Microsoft 刚刚在 Hugging Face 发布了 Phi-Ground-Any，这是一个拥有 40 亿参数的视觉模型，用于 GUI 定位，并取得了 SOTA……

X AI KOLs Following ↗ · 23小时前缓存

Microsoft 在 Hugging Face 上发布了 Phi-Ground-Any，这是一个用于 GUI 定位的 40 亿参数视觉模型，取得了最先进的结果，使 AI 智能体能够与屏幕元素进行精确交互。

0 人收藏 0 人点赞

#computer-vision

@tenderizzation：这简直超出了预期！YOLOv3 回归

X AI KOLs Following ↗ · 昨天缓存

这条社交媒体帖子表达了对 YOLOv3 目标检测模型回归或重新受到关注的兴奋之情。

0 人收藏 0 人点赞

#computer-vision

@Tesla：Tesla Vision可让您的特斯拉在检测到不可避免的碰撞时提前最多70毫秒触发安全气囊

X AI KOLs Following ↗ · 昨天缓存

特斯拉宣布其Vision视觉系统可检测到不可避免的碰撞，并提前最多70毫秒触发安全气囊，这一时间差可能意味着重伤与安然脱险的区别。

0 人收藏 0 人点赞

#computer-vision

@neil_xbt: Andrej Karpathy 本可以收 1000 美元讲授这堂计算机视觉课！他却免费放在了 YouTube 上。这位从零打造 Tesla Autopilot、联合创立 OpenAI 的人，花了多年时间将他在讲解的架构应用于实际，规模之大多数工程师只能从文章里读到。

X AI KOLs Timeline ↗ · 昨天

Andrej Karpathy 在 YouTube 免费发布了一堂计算机视觉讲座，涵盖图像描述、定位、分割和迁移学习，内容源于他在 Tesla 和 OpenAI 的生产实践经验。

0 人收藏 1 人点赞

#computer-vision

FoodCHA：用于细粒度食物分析的多模态大语言模型智能体

arXiv cs.AI ↗ · 2天前缓存

本文介绍了 FoodCHA，这是一个专为细粒度食物分析设计的大语言模型多模态智能体框架，旨在解决饮食监测中的层级一致性和属性识别问题。

0 人收藏 0 人点赞

#computer-vision

用于城市设计的智能监控系统：基于人工智能的十字路口软基础设施分析

arXiv cs.AI ↗ · 2天前缓存

本学术论文介绍了一种基于人工智能的分析框架，利用现有的监控系统基础设施，评估交通软性干预措施对城市十字路口车辆速度和安全性所产生的影响。

0 人收藏 0 人点赞

#computer-vision

HNC：利用困难负样本描述提升模型的细粒度视觉-语言理解能力

arXiv cs.CL ↗ · 2天前缓存

本文介绍了困难负样本描述（HNC），这是一种数据集和方法，旨在通过解决网络采集的图文对中存在的弱关联问题，训练视觉-语言模型以实现细粒度理解。

0 人收藏 0 人点赞

#computer-vision

英国汽车将配备AI摄像头检测危险驾驶司机

Reddit r/ArtificialInteligence ↗ · 2天前缓存

英国正在车辆中部署AI摄像头系统，以检测受酒精、毒品或疲劳影响的驾驶员，通过实时监控提高道路安全。

0 人收藏 0 人点赞

#computer-vision

视觉感知到概念的一阶规则学习网络 [R]

Reddit r/MachineLearning ↗ · 3天前缓存

本文介绍了gammaILP，一个完全可微的框架，能够直接从图像数据中学习一阶规则，且无标签泄露，解决了符号接地和谓词发明等挑战。

0 人收藏 0 人点赞

#computer-vision

SwiftI2V：一种通过条件分段生成实现高效高分辨率图像到视频生成的框架

Hugging Face Daily Papers ↗ · 3天前缓存

SwiftI2V 是一个新颖的高效框架，用于高分辨率图像到视频的生成，它采用条件分段生成技术，在显著降低计算成本的同时实现了 2K 分辨率的合成。该框架使得在单个消费级或数据中心 GPU 上进行实用的生成成为可能，同时保持了输入的保真度。

0 人收藏 0 人点赞

#computer-vision

用于少步扩散蒸馏的连续时间分布匹配

Hugging Face Daily Papers ↗ · 3天前缓存

本文介绍了连续时间分布匹配（CDM），这是一种用于少步扩散蒸馏的方法，它通过将优化过程从离散迁移到连续，提高了视觉保真度并保留了精细细节。

0 人收藏 0 人点赞

#computer-vision

@lillyguisnet: 哇塞！！！我还没有机会尝试SAM3.1，但仅仅用"worm"这个提示就能完美分割我的图像！…

X AI KOLs Following ↗ · 3天前缓存

一位用户分享了关于SAM 3.1的热情反馈：仅用'worm'等简单文本提示即可精准分割图像，相比SAM 1有显著提升。

0 人收藏 0 人点赞

#computer-vision

StableI2I：识别图像到图像转换中的非预期变化

Hugging Face Daily Papers ↗ · 4天前缓存

本文介绍了 StableI2I，这是一种无需参考图像的评估框架，用于评估图像到图像生成任务中的内容保真度和一致性。此外，本文还提出了 StableI2I-Bench，一个用于评估多模态语言模型在这些评估任务上表现的基准。

0 人收藏 0 人点赞

#computer-vision

通过上下文稀疏注意力实现闪电般的统一视频编辑

Hugging Face Daily Papers ↗ · 4天前缓存

本文介绍了上下文稀疏注意力（ISA），这是一种通过裁剪冗余上下文和使用动态查询分组来显著降低视频编辑计算成本的框架。作者通过 LIVEditor 证明了该方法的有效性，在多个视频编辑基准测试中实现了近乎无损的加速和最新的技术结果。

0 人收藏 0 人点赞

#computer-vision

TT4D：一种基于单目视频进行乒乓球4D重建的Pipeline与数据集

Hugging Face Daily Papers ↗ · 2026-05-02 缓存

本文介绍了TT4D，这是一种新颖的Pipeline和大规模数据集，旨在从单目视频中重建乒乓球比赛的4D场景。该方案采用独特的“先升维”策略，在进行时间分割之前，先估计乒乓球的3D轨迹和旋转，从而即使在存在遮挡的情况下也能实现稳健的重建。

0 人收藏 0 人点赞

#computer-vision

MoCapAnything V2: 面向任意骨骼的端到端动作捕捉

Papers with Code Trending ↗ · 2026-04-30 缓存

MoCapAnything V2 提出了一种面向任意骨骼单目视频动作捕捉的完全端到端框架，通过联合优化视频到姿态以及姿态到旋转的预测，解决旋转歧义性问题。

0 人收藏 0 人点赞

#computer-vision

用于视觉生成的表示 Fréchet 损失

Papers with Code Trending ↗ · 2026-04-30 缓存

本文介绍了 FD-loss，一种通过将总体规模与批次规模解耦，从而将 Fréchet 距离作为视觉生成的训练目标进行优化的方法。研究证明该方法能提高生成器的质量，并指出 FID 可能无法始终准确反映视觉质量。

0 人收藏 0 人点赞

#computer-vision

解决“打地鼠困境”：一种更智能的 AI 视觉模型去偏方法

MIT News — Artificial Intelligence ↗ · 2026-04-29 缓存

来自麻省理工学院（MIT）、伍斯特理工学院（WPI）和 Google 的研究人员提出了 WRING，这是一种用于视觉语言模型（VLM）的新型后处理去偏方法，旨在避免在消除特定偏见时放大其他偏见的“打地鼠困境”。

0 人收藏 0 人点赞

computer-vision

提交意见反馈