Ultralytics YOLO26:统一的实时端到端视觉模型
摘要
Ultralytics YOLO26 引入了一个统一的实时视觉模型家族,具有无需NMS的推理、改进的训练策略以及用于检测、分割和姿态估计的多任务能力,实现了最先进的精度与延迟权衡。
查看缓存全文
缓存时间: 2026/06/03 19:39
论文页面 - Ultralytics YOLO26:统一实时端到端视觉模型
来源:https://huggingface.co/papers/2606.03748
摘要
YOLO26 通过一个统一的模型系列解决了实时视觉挑战,实现了无 NMS 推理、改进的训练策略以及覆盖检测、分割和姿态估计的多任务能力。
实时视觉要求模型准确、高效且易于部署到多样化硬件上。YOLO(https://huggingface.co/papers?q=YOLO)系列因此被广泛部署,但大多数 YOLO 检测器在推理时仍依赖非极大值抑制(https://huggingface.co/papers?q=non-maximum%20suppression),由于分布焦点损失(https://huggingface.co/papers?q=Distribution%20Focal%20Loss)而承载繁重的检测头,需要较长的训练计划,并且可能使最小物体无法获得正标签分配。我们提出了 Ultralytics YOLO(https://huggingface.co/papers?q=YOLO)26,这是一个统一的实时视觉模型系列,通过协调的架构与训练进展解决了这些局限。YOLO(https://huggingface.co/papers?q=YOLO)26 采用双头设计实现原生无 NMS 的端到端推理,并完全移除 DFL,从而获得更轻量的检测头及无约束回归范围。其训练流程结合了 MuSGD(https://huggingface.co/papers?q=MuSGD)——一种从大语言模型训练中改进的混合 Muon-SGD 优化器(https://huggingface.co/papers?q=hybrid%20Muon-SGD%20optimizer);渐进损失(https://huggingface.co/papers?q=Progressive%20Loss)——将监督信号逐步转移至推理时的检测头;以及 STAL(https://huggingface.co/papers?q=STAL)——一种确保小物体获得正覆盖的标签分配策略。除检测外,YOLO(https://huggingface.co/papers?q=YOLO)26 还引入了针对实例分割(https://huggingface.co/papers?q=instance%20segmentation)、姿态估计(https://huggingface.co/papers?q=pose%20estimation)和旋转目标检测(https://huggingface.co/papers?q=oriented%20detection)的任务特定检测头与损失设计,跨任务和尺度产生一致的提升。该系列涵盖五个尺度(n/s/m/l/x),并在单一流水线中支持检测、实例分割(https://huggingface.co/papers?q=instance%20segmentation)、姿态估计(https://huggingface.co/papers?q=pose%20estimation)、分类以及旋转目标检测(https://huggingface.co/papers?q=oriented%20detection),还通过开放词汇扩展(https://huggingface.co/papers?q=open-vocabulary%20extension)YOLO(https://huggingface.co/papers?q=YOLO)E-26 实现文本、视觉和无提示推理。在所有尺度上,YOLO(https://huggingface.co/papers?q=YOLO)26 在 COCO(https://huggingface.co/papers?q=COCO)上以 1.7–11.8 ms T4 TensorRT 延迟(https://huggingface.co/papers?q=TensorRT%20latency)取得 40.9–57.5 mAP(https://huggingface.co/papers?q=mAP),将精度-延迟帕累托前沿推至更优;而 YOLO(https://huggingface.co/papers?q=YOLO)E-26x 在文本提示下于 LVIS(https://huggingface.co/papers?q=LVIS)minival 上达到 40.6 AP。代码和模型可在 https://github.com/ultralytics/ultralytics 获取。
查看 arXiv 页面(https://arxiv.org/abs/2606.03748)
查看 PDF(https://arxiv.org/pdf/2606.03748)
项目页面(https://docs.ultralytics.com/models/yolo26)
GitHub 58k(https://github.com/ultralytics/ultralytics)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.03748)
在您的代理中获取此论文:
hf papers read 2606.03748
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
没有模型与此论文链接
在模型 README.md 中引用 arxiv.org/abs/2606.03748 以从本页链接。
引用此论文的数据集 0
没有数据集与此论文链接
在数据集 README.md 中引用 arxiv.org/abs/2606.03748 以从本页链接。
引用此论文的 Space 0
没有 Space 与此论文链接
在 Space README.md 中引用 arxiv.org/abs/2606.03748 以从本页链接。
包含此论文的收藏 0
没有收藏包含此论文
将此论文添加到收藏(https://huggingface.co/new-collection)以从本页链接。
相似文章
/yolo
关于YOLO这一广泛使用的实时目标检测模型系列的文章。
@Phoenixyin13: 在目标检测界,一直有两个门派: YOLO 派,传统豪强,走的是天下武功,唯快不破的路线。速度极快,是工业界、无人机、监控摄像头的绝对霸主。 Transformer 派,学院派贵族,脑子聪明精度极高,但由于算力消耗太大,过去像个林黛玉,在需…
ICLR2026上提出的RF-DETR模型结合了Transformer的高精度和实时性,在100个真实场景中取得高分,并提供从Nano到2XL的多种规模,有望替代YOLO在实时检测领域的地位。
LeWorldModel:从像素出发的稳定端到端联合嵌入预测架构
LeWorldModel 提出了一种稳定的端到端联合嵌入预测架构(JEPA),可直接从像素进行训练,仅需极少超参数,并具有可证明的反坍塌保证。与基础模型相比,它在规划速度上实现了显著提升,同时在机器人操作任务中保持了具有竞争力的性能。
FusionSense: 三阶段近传感器学习实现运行时自适应多模态边缘智能
FusionSense提出了一种面向多模态边缘智能的三阶段近传感器学习框架,通过融合感知滤波同时降低计算与通信开销,在RGB-深度/激光雷达任务上实现高达33倍的能耗节省和显著的数据缩减收益。
OneVL:基于视觉语言解释的单步隐式推理与规划
# 论文页面 - OneVL:基于视觉语言解释的单步隐式推理与规划 来源:[https://huggingface.co/papers/2604.18486](https://huggingface.co/papers/2604.18486) 发布于 4月20日 [\#1 每日论文](https://huggingface.co/papers/date/2026-04-21) 作者:, , , , , , , , , , , , , , , , , , , , ## 摘要 OneVL 提出了一个统一的视觉-语言-行动框架,通过整合语言和 v