Ultralytics YOLO26:统一的实时端到端视觉模型

Hugging Face Daily Papers 论文

摘要

Ultralytics YOLO26 引入了一个统一的实时视觉模型家族,具有无需NMS的推理、改进的训练策略以及用于检测、分割和姿态估计的多任务能力,实现了最先进的精度与延迟权衡。

实时视觉要求模型准确、高效且易于在各种硬件上部署。YOLO系列因此得到广泛部署,但大多数YOLO检测器在推理时仍依赖非极大值抑制,由于分布焦点损失导致检测头沉重,需要较长的训练周期,并且可能让最小物体没有正标签分配。我们提出Ultralytics YOLO26,一个统一的实时视觉模型家族,通过协调架构和训练改进来解决这些限制。YOLO26使用双头设计实现原生无需NMS的端到端推理,并完全移除DFL,产生更轻量且回归范围不受限制的检测头。其训练流程结合了MuSGD(一种从大规模语言模型训练改编而来的混合Muon-SGD优化器)、渐进式损失(将监督信号转向推理时头部)以及STAL(一种保证小物体正覆盖率的标签分配策略)。除了检测,YOLO26还为实例分割、姿态估计和方向检测引入了特定任务的头部和损失设计,在各种任务和尺度上产生一致的增益。该系列包括五种尺度(n/s/m/l/x),并在单一流程中支持检测、实例分割、姿态估计、分类和方向检测,同时具有开放词汇扩展YOLOE-26,用于无需文本、视觉和提示的推理。在所有尺度上,YOLO26在COCO上达到40.9-57.5 mAP,延迟为1.7-11.8 ms(T4 TensorRT),将精度-延迟帕累托前沿推进到超过先前的实时检测器,而YOLOE-26x在文本提示下在LVIS minival上达到40.6 AP。代码和模型可在 https://github.com/ultralytics/ultralytics 获取。
查看原文
查看缓存全文

缓存时间: 2026/06/03 19:39

论文页面 - Ultralytics YOLO26:统一实时端到端视觉模型

来源:https://huggingface.co/papers/2606.03748

摘要

YOLO26 通过一个统一的模型系列解决了实时视觉挑战,实现了无 NMS 推理、改进的训练策略以及覆盖检测、分割和姿态估计的多任务能力。

实时视觉要求模型准确、高效且易于部署到多样化硬件上。YOLO(https://huggingface.co/papers?q=YOLO)系列因此被广泛部署,但大多数 YOLO 检测器在推理时仍依赖非极大值抑制(https://huggingface.co/papers?q=non-maximum%20suppression),由于分布焦点损失(https://huggingface.co/papers?q=Distribution%20Focal%20Loss)而承载繁重的检测头,需要较长的训练计划,并且可能使最小物体无法获得正标签分配。我们提出了 Ultralytics YOLO(https://huggingface.co/papers?q=YOLO)26,这是一个统一的实时视觉模型系列,通过协调的架构与训练进展解决了这些局限。YOLO(https://huggingface.co/papers?q=YOLO)26 采用双头设计实现原生无 NMS 的端到端推理,并完全移除 DFL,从而获得更轻量的检测头及无约束回归范围。其训练流程结合了 MuSGD(https://huggingface.co/papers?q=MuSGD)——一种从大语言模型训练中改进的混合 Muon-SGD 优化器(https://huggingface.co/papers?q=hybrid%20Muon-SGD%20optimizer);渐进损失(https://huggingface.co/papers?q=Progressive%20Loss)——将监督信号逐步转移至推理时的检测头;以及 STAL(https://huggingface.co/papers?q=STAL)——一种确保小物体获得正覆盖的标签分配策略。除检测外,YOLO(https://huggingface.co/papers?q=YOLO)26 还引入了针对实例分割(https://huggingface.co/papers?q=instance%20segmentation)、姿态估计(https://huggingface.co/papers?q=pose%20estimation)和旋转目标检测(https://huggingface.co/papers?q=oriented%20detection)的任务特定检测头与损失设计,跨任务和尺度产生一致的提升。该系列涵盖五个尺度(n/s/m/l/x),并在单一流水线中支持检测、实例分割(https://huggingface.co/papers?q=instance%20segmentation)、姿态估计(https://huggingface.co/papers?q=pose%20estimation)、分类以及旋转目标检测(https://huggingface.co/papers?q=oriented%20detection),还通过开放词汇扩展(https://huggingface.co/papers?q=open-vocabulary%20extension)YOLO(https://huggingface.co/papers?q=YOLO)E-26 实现文本、视觉和无提示推理。在所有尺度上,YOLO(https://huggingface.co/papers?q=YOLO)26 在 COCO(https://huggingface.co/papers?q=COCO)上以 1.7–11.8 ms T4 TensorRT 延迟(https://huggingface.co/papers?q=TensorRT%20latency)取得 40.9–57.5 mAP(https://huggingface.co/papers?q=mAP),将精度-延迟帕累托前沿推至更优;而 YOLO(https://huggingface.co/papers?q=YOLO)E-26x 在文本提示下于 LVIS(https://huggingface.co/papers?q=LVIS)minival 上达到 40.6 AP。代码和模型可在 https://github.com/ultralytics/ultralytics 获取。

查看 arXiv 页面(https://arxiv.org/abs/2606.03748)
查看 PDF(https://arxiv.org/pdf/2606.03748)
项目页面(https://docs.ultralytics.com/models/yolo26)
GitHub 58k(https://github.com/ultralytics/ultralytics)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.03748)

在您的代理中获取此论文:

hf papers read 2606.03748

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型与此论文链接

在模型 README.md 中引用 arxiv.org/abs/2606.03748 以从本页链接。

引用此论文的数据集 0

没有数据集与此论文链接

在数据集 README.md 中引用 arxiv.org/abs/2606.03748 以从本页链接。

引用此论文的 Space 0

没有 Space 与此论文链接

在 Space README.md 中引用 arxiv.org/abs/2606.03748 以从本页链接。

包含此论文的收藏 0

没有收藏包含此论文

将此论文添加到收藏(https://huggingface.co/new-collection)以从本页链接。

相似文章

/yolo

Reddit r/LocalLLaMA

关于YOLO这一广泛使用的实时目标检测模型系列的文章。

@Phoenixyin13: 在目标检测界,一直有两个门派: YOLO 派,传统豪强,走的是天下武功,唯快不破的路线。速度极快,是工业界、无人机、监控摄像头的绝对霸主。 Transformer 派,学院派贵族,脑子聪明精度极高,但由于算力消耗太大,过去像个林黛玉,在需…

X AI KOLs Timeline

ICLR2026上提出的RF-DETR模型结合了Transformer的高精度和实时性,在100个真实场景中取得高分,并提供从Nano到2XL的多种规模,有望替代YOLO在实时检测领域的地位。

LeWorldModel:从像素出发的稳定端到端联合嵌入预测架构

Papers with Code Trending

LeWorldModel 提出了一种稳定的端到端联合嵌入预测架构(JEPA),可直接从像素进行训练,仅需极少超参数,并具有可证明的反坍塌保证。与基础模型相比,它在规划速度上实现了显著提升,同时在机器人操作任务中保持了具有竞争力的性能。

OneVL:基于视觉语言解释的单步隐式推理与规划

Hugging Face Daily Papers

# 论文页面 - OneVL:基于视觉语言解释的单步隐式推理与规划 来源:[https://huggingface.co/papers/2604.18486](https://huggingface.co/papers/2604.18486) 发布于 4月20日 [\#1 每日论文](https://huggingface.co/papers/date/2026-04-21) 作者:, , , , , , , , , , , , , , , , , , , , ## 摘要 OneVL 提出了一个统一的视觉-语言-行动框架,通过整合语言和 v