标签
英伟达开源了视觉定位模型 LocateAnything-3B,能够在密集场景中精准检测并框出所有目标对象。
一位开发者利用 Roboflow RF-DETR 进行检测、MediaPipe 捕捉身体角度、OpenCV 进行分析和标注,构建了一个 AI 篮球教练。
YOLO26 是一个于2026年1月发布的多任务计算机视觉模型系列,具备无需 Non-Maximum Suppression 的端到端检测功能以降低延迟,并针对边缘部署进行了优化,具有改进的CPU推理能力和紧凑设计。
NVIDIA发布了LocateAnything,这是一个开源模型,通过同时预测所有坐标而非顺序预测,实现了约10倍的物体检测速度提升,在单块H100上达到12.7 FPS,并超越了320亿参数模型。
Ultralytics YOLO26 引入了一个统一的实时视觉模型家族,具有无需NMS的推理、改进的训练策略以及用于检测、分割和姿态估计的多任务能力,实现了最先进的精度与延迟权衡。
NVIDIA 推出了 LocateAnything,这是一个统一的生成式定位与检测框架,采用并行框解码(Parallel Box Decoding)来提升解码吞吐量和定位精度。该工作将在 CVPR 2026 上进行展示。
LocateAnything 提出并行框解码用于统一视觉定位与目标检测,将几何元素解码为原子单元,以提高吞吐量和定位精度,并得到包含1.38亿样本的大规模数据集的支持。
ICLR2026上提出的RF-DETR模型结合了Transformer的高精度和实时性,在100个真实场景中取得高分,并提供从Nano到2XL的多种规模,有望替代YOLO在实时检测领域的地位。
这条社交媒体帖子表达了对 YOLOv3 目标检测模型回归或重新受到关注的兴奋之情。
Interfaze AI 发布专用模型,在 OCR、目标检测、网页抓取、语音转文字、分类等确定性开发者任务上全面超越通用 LLM。
一位用户希望获得关于改进其YOLO11n目标检测模型的建议,计划将其部署在Raspberry Pi 5上,但困扰于理论mAP50指标与实际检测性能之间的差距。
Meta AI 发布了 SAM 3.1,这是 Segment Anything Model(分割一切模型)的一次更新,通过引入多路复用和全局推理能力,增强了实时视频检测与跟踪性能。
MIT研究人员开发了一种由生成式AI增强的无线视觉系统,该系统利用毫米波信号重建隐藏物体及完整房间场景,突破了以往在形状重建方面的局限性,为仓储机器人与智能家居应用带来了新的可能性。
这篇博客文章详细介绍了如何在树莓派上使用Hailo AI协处理器设置Frigate进行物体检测,包括修复PCIe描述符页面大小错误的步骤。该设置可与更便宜的Hailo-8L配合使用,并实现低推理时间。
SAM 3 引入了一个统一的模型,用于基于提示的概念分割与跟踪,通过解耦的识别与定位架构以及可扩展的数据引擎,实现了最先进的性能。
RF-DETR提出了一种轻量级检测Transformer,通过权重共享神经架构搜索实现最先进的实时目标检测,在COCO和Roboflow100-VL上优于先前方法,同时运行速度快达20倍。
Frigate 是一个为 Home Assistant 设计的开源 NVR,通过 OpenCV 和 TensorFlow 在本地对 IP 摄像头进行实时 AI 物体检测。它具有与 Home Assistant 紧密集成、基于运动的检测以及高效资源利用的特点。
Grounding DINO 是一个开放词汇的目标检测模型,能够根据文本描述检测任意对象,现已在 Replicate 上可用。