目录
YOLOv1
YOLOv2
YOLOv3
YOLOv4
YOLOv5
YOLOv6
YOLOv7
YOLOv8
YOLOv9
YOLOv10
YOLOv11
YOLOv12
YOLO系列模型想必大家都不陌生,在目标检测、图像分类、图像分割、姿态检测和目标跟踪等领域都有很多应用。该系列主要对YOLO系列模型进行介绍,包括各版本模型的结构,进行的创新、优化、改进等。帮助大家了解和掌握主要YOLO系列模型的发展脉络,以实现在各自的应用领域进一步创新并在自己的任务上达到较好的效果。
学习链接:学习链接;学习文档:学习文档。
本文我们完整回忆一下YOLO发展的时间线,先直接上图:
Ultralytics 公司有YOLO家族的简介:
YOLO(You Only Look Once)是一种流行的物体检测和图像分割模型,由华盛顿大学的约瑟夫-雷德蒙(Joseph Redmon)和阿里-法哈迪(Ali Farhadi)开发。YOLO 于 2015 年推出,因其高速度和高精确度而迅速受到欢迎。
2016 年发布的YOLOv2 通过纳入批量归一化、锚框和维度集群改进了原始模型。
2018 年推出的YOLOv3 使用更高效的骨干网络、多锚和空间金字塔池进一步增强了模型的性能。
YOLOv4于 2020 年发布,引入了 Mosaic数据增强、新的无锚检测头和新的损失函数等创新技术。
YOLOv5进一步提高了模型的性能,并增加了超参数优化、集成实验跟踪和自动导出为常用导出格式等新功能。
YOLOv6于 2022 年由美团开源,目前已用于该公司的许多自主配送机器人。
YOLOv7增加了额外的任务,如 COCO 关键点数据集的姿势估计。
YOLOv8Ultralytics YOLOv8 引入了新的功能和改进,以提高性能、灵活性和效率,支持全方位的视觉人工智能任务、
YOLOv9引入了可编程梯度信息 (PGI) 和广义高效层聚合网络 (GELAN) 等创新方法。
YOLOv10是由清华大学的研究人员使用UltralyticsPython 软件包创建的。该版本通过引入端到端头(End-to-End head),消除了非最大抑制(NMS)要求,实现了实时目标检测的进步。
YOLO11 Ultralytics的YOLO 12模型可在物体检测、分割、姿态估计、跟踪和分类等多项任务中提供最先进的 (SOTA) 性能,充分利用了各种人工智能应用和领域的能力。
YOLO12 🚀新消息:引入了Attention机制,通过区域注意机制(Area Attention)和剩余效率层聚合网络(R-ELAN),YOLO12在保持实时性的同时,显著提升了性能和效率。
YOLOv1~YOLOv12汇总如下:
YOLOv1
-
发布时间:2015
-
论文产出:You Only Look Once: Unified, Real-Time Object Detection
-
代码仓库:https://github.com/pjreddie/darknet
-
核心贡献:
-
将目标检测重新定义为单一回归问题:YOLO(You Only Look Once)提出将目标检测简化为单次图像处理任务,直接从像素回归预测物体的边界框坐标和类别概率。
-
单阶段检测框架(One-Stage Detection):首次将目标检测任务建模为端到端的回归问题,通过单个卷积神经网络直接预测边界框坐标和类别概率,摒弃了传统的两阶段(如R-CNN系列)区域提议机制。
-
全局图像推理:与滑动窗口或区域提议方法不同,YOLOv1将输入图像划分为 S×S 网格(如7×7),每个网格单元负责预测固定数量的边界框及对应的类别概率,实现全局上下文感知。
-
联合预测机制:每个网格单元预测 B 个边界框(Bounding Boxes) 和 1 个类别概率分布,边界框包含坐标(x, y, w, h)和置信度(confidence score),并在B个边界框中取其与GroundTruth的IoU最高的那个边界框用于检测。
-
多任务损失函数:设计统一的损失函数,联合优化边界框定位误差、置信度误差和分类误差,平衡不同任务的梯度贡献。
-
-
性能表现:在PASCAL VOC 2007和PASCAL VOC 2012数据集上的
指标分别为63.4%和57.9%。
YOLOv2
-
发布时间:2016
-
论文产出:yolo9000: Better, Faster, Stronger
-
代码仓库:https://github.com/pjreddie/darknet
-
前序版本及其缺点
-
YOLOv1作为一种开创性的单阶段实时目标检测模型,在速度上表现出色,但存在以下局限性:
-
小目标的检测能力较弱,容易漏检;
-
定位精度低(目标位置的预测)<--使用全连接层预测边界框导致;
-
对密集或重叠目标的检测效果差,容易将多个目标合并为一个边界框。
-
召回率相对较低-->限制了在复杂场景下的应用。
-
-
针对v1中所遇到的问题,研究者们提出了YOLOv2(YOLO9000)
-
-
核心贡献:
-
批量归一化(Batch Normalization):在每个卷积层后加入批量归一化,提升模型收敛速度、稳定性和泛化能力,mAP提升约2%。
-
高分辨率分类器(High Resolution Classifier):先在ImageNet 上以 448x448 的分辨率微调分类网络 10 个 epochs,再迁移到检测网络,缓解输入分辨率突变导致的性能下降。
-
锚框机制(Anchor Boxes):引入Faster R-CNN的锚框(Anchor)概念,移除YOLOv1的全连接层,改为卷积层预测锚框偏移量,显著提升召回率(Recall)。
-
维度聚类(Dimension Clusters):通过K-means聚类分析训练集的边界框尺寸,自动生成更符合数据分布的锚框尺寸(取代人工设计),提升定位精度。
-
直接位置预测(Direct Location Prediction):约束锚框中心点的预测范围(通过Sigmoid函数限制在网格单元内),避免训练初期锚框大幅偏移导致的发散问题。
-
细粒度特征融合(Fine-Grained Features):提出“Passthrough层”:将浅层高分辨率特征图(26×26)与深层语义特征拼接,增强小目标检测能力。
-
多尺度训练(Multi-Scale Training):每10个batch随机调整输入图像尺寸(如320×320到608×608),使模型适应不同分辨率,兼顾速度与精度。
-
联合分类与检测训练(Joint Classification and Detection):提出WordTree分层结构,联合训练检测数据集(COCO/VOC)和分类数据集(ImageNet),支持检测超9000类物体(YOLO9000)。
-
-
性能表现:在PASCAL VOC 2007和PASCAL VOC 2012数据集上的
指标分别为78.6%和73.4%。在COCO数据集上的
指标为44.0%。
YOLOv3
-
发布时间:2018
-
论文产出:yolov3: An Incremental Improvement
-
代码仓库:https://github.com/pjreddie/darknet
-
前序版本及其缺点
-
YOLOv2局限性:
-
对小目标的检测能力较弱,容易漏检,尤其是在目标密集或重叠的场景中,检测精度会明显下降;
-
网络结构相对复杂-->导致计算量增加,对硬件资源的要求也相应提高;
-
对目标形状变化的适应性不足,可能会在复杂场景中影响检测效果。
-
-
针对v2中所遇到的问题,研究者们提出了YOLOv3。
-
-
核心贡献:
-
多尺度预测(Multi-Scale Prediction): 引入 3 种不同尺度的预测层(例如,输入尺寸为416的版本预测层分辨率为13×13、26×26、52×52),分别检测大、中、小目标,显著提升小目标检测能力。通过上采样(Upsampling)与特征拼接(Concatenation)构建特征金字塔网络(类似FPN),融合浅层细节与深层语义信息。多尺度预测极大地提升了YOLO网络对于小目标的检测能力,而此前的YOLOv1和v2版本在这方面表现并不出色。
-
改进的骨干网络(Darknet-53):设计更深的骨干网络 Darknet-53(含53层卷积),结合残差连接(Residual Blocks),平衡计算量与特征提取能力。与Darknet-19、ResNet-101和ResNet152相比,Darknet-53运行效率更高。
-
多标签分类(Multi-Label Classification):由于v3版本支持单目标多标签分类(如一个目标既可以被分类为“人”也可以被分类为“女人”),而之前版本中使用的Softmax要求单目标单标签并且标签直接要相互独立、没有交集,因此使用独立的逻辑回归分类器(Logistic Regression Classifier)替代了Softmax,而在逻辑回归分类器中,使用二元交叉熵损失(Binary Cross-entropy Loss)来训练分类器预测边界框。
-
锚框优化(Anchor Box Clustering):对COCO数据集进行K-means聚类,生成 9组锚框尺寸(每个尺度分配3组),提升先验框与数据分布的匹配度。
-
简化置信度预测:直接预测边界框的 对象置信度(Objectness Score),而非YOLOv2中的“框与真实框的IoU × 类别概率”。
-
损失函数调整:边界框定位损失沿用MSE,但优化权重分配,缓解小目标定位误差被大目标淹没的问题。(论文中没提到,但是源码有体现)
-
-
性能表现:在COCO数据集上的
指标为57.9%,在416×416分辨率下推理时间为51毫秒/帧(在Nvidia Titan X显卡上)。
YOLOv4
-
发布时间:2020
-
论文产出:yolov4: Optimal Speed and Accuracy of Object Detection
-
代码仓库:https://github.com/AlexeyAB/darknet
-
前序版本及其缺点
-
YOLOv3局限性:
-
在处理密集目标时表现欠佳-->容易出现漏检或误检,尤其是在目标相互重叠的情况下;
-
YOLOv3主要基于矩形边界框进行优化-->对于非常规形状的目标,YOLOv3的检测精度也受到一定限制;
-
网络结构相对复杂-->模型大小较大-->导致在资源受限的设备上运行时面临挑战;
-
-
针对v3中的上述问题,研究者们提出了YOLOv4。
-
-
核心贡献:
BoF(Bag of Freebies, 免费技巧):不增加推理成本但提升性能的技术(如数据增强、损失函数改进)。
BoS(Bag of Specials, 特殊模块):需少量计算开销但显著提升精度的结构(如注意力机制、复杂特征融合)。
-
骨干网络优化
-
Mish激活函数:采用平滑非单调激活函数,增强梯度流和模型泛化能力(BoS)。
-
CSPDarknet53:通过跨阶段局部连接(CSP)分割特征图梯度流,减少计算冗余(BoS)。
-
多输入加权残差连接(MiWRC):优化特征融合过程,提升网络表达能力(BoS)。
-
CutMix数据增强:融合两幅图像局部区域,增强模型对局部遮挡的鲁棒性(BoF)。
-
-
检测器创新
-
SPP模块:多尺度最大池化(5×5、9×9、13×13)融合不同感受野特征(BoS)。
-
PANet路径聚合:使用PANet改进FPN,实现双向特征融合,增强浅层信息传递(BoS)。YOLOv4的PANet与原始PANet不同,采用concat融合特征图,允许网络学习更丰富的特征表示。
-
SAM空间注意力模块:通过通道/空间注意力聚焦关键区域(BoS)。
-
-
训练策略与损失函数
-
CIoU Loss:使用CIoU Loss优化目标框定位(BoF)。从YOLOv3的IoU Loss改进而来,CIoU Loss联合优化重叠面积、中心距离和宽高比,更精确,提升定位精度。
-
消除网格敏感度(Eliminate Grid Sensitivity):改进坐标预测公式,缓解网格边界回归偏差(BoF)。
-
单目标多锚框策略:为单个GroundTruth分配多个锚框,缓解正样本不平衡问题(BoF)。
-
-
正则化与数据增强
-
Mosaic增强:四图拼接训练,强化复杂背景和小目标适应能力(BoF)。
-
DropBlock:结构化丢弃特征图连续区域,防止过拟合(BoF)。
-
类别标签平滑(Label Smoothing):软化硬标签,缓解分类置信度过拟合(BoF)。
-
-
训练优化技术
-
自对抗训练(SAT):对抗扰动生成+微调两阶段训练,提升鲁棒性(BoF)。
-
CmBN跨小批量归一化:累积多步梯度更新,改善小批量训练稳定性(BoF)。
-
余弦退火调度器:动态调整学习率,避免局部最优(BoF)。
-
随机训练形状(Random Shapes):多尺度输入增强尺度不变性(BoF)。
-
-
后处理与推理优化
-
DIoU-NMS:在非极大值抑制(NMS)中引入中心点距离度量,减少重叠目标误删(BoS)。
-
超参数自动优化:通过算法搜索最佳锚框和训练参数组合(BoF)。
-
-
-
性能表现:在COCO数据集上达到了43.5%的
。
YOLOv5
-
发布时间:2020
-
论文产出:🈚🈚🈚
-
代码仓库:https://github.com/ultralytics/yolov5
-
前序版本及其缺点
-
YOLOv4局限性:
-
网络结构相对复杂,模型规模较大-->模型在训练和推理阶段对硬件资源的需求较高;
-
小目标检测仍不够精确-->容易出现漏检或误检;
-
对于密集目标和长宽比较大的目标,检测效果存在一定的局限性;
-
由于复杂的网络设计-->训练和调整过程相对困难,对开发者的技能要求较高。
-
-
针对v4中的上述问题,研究者们优化YOLO框架,提出YOLOv5。
-
-
核心贡献:
-
自适应锚框计算(AutoAnchor):在训练前自动分析数据集并优化 Anchor Box 的尺寸,提升边界框回归效率。
-
Mosaic 数据增强:引入 4 图拼接的 Mosaic 数据增强方法,结合随机裁剪、缩放、色调变换,提升小目标检测和泛化能力。
-
CSPNet 骨干网络:采用 Cross Stage Partial Network (CSPDarknet53) 作为骨干网络,减少计算量并增强特征融合能力。
-
复合模型缩放(Model Scaling):通过统一缩放深度、宽度、分辨率(借鉴 EfficientNet),提供 YOLOv5s/m/l/x 多尺度模型。
-
Focus 结构与跨阶段特征融合:通过 Focus 模块(切片+卷积)降低计算量,配合 PANet 实现多尺度特征金字塔融合。
-
损失函数改进:采用 CIOU Loss 替代 MSE 作为边界框回归损失,同时优化分类与置信度损失权重。
-
混合精度训练与模型量化:支持 FP16/INT8 训练加速,并提供 TFLite/ONNX 等轻量化部署格式。
-
-
性能表现:YOLOv5通过配置不同的参数预训练了多个不同大小的模型,其中yolov5x6在COCO数据集上达到了55.0%的
。
YOLOv6
-
发布时间:2022
-
论文产出:yolov6: A Single-Stage Object Detection Framework for Industrial Applications
-
代码仓库:https://github.com/meituan/YOLOv6
-
前序版本及其缺点
-
YOLOv5局限性:
-
在处理小目标和遮挡目标时表现欠佳,容易出现漏检或误检<--由于其特征金字塔结构不够完善;
-
尽管采用了多尺度训练技术,但在复杂场景下,YOLOv5的检测精度仍有待提高,尤其是在面对长尾分布数据时,模型对少数类别物体的识别能力较弱;
-
YOLOv5的抗干扰性也存在问题,图像噪声、模糊或遮挡等因素会影响其检测效果。
-
-
因此,美团的研究者们优化v4、v5的模型设计和算法,提出YOLOv6以及后续的v6 2.0和v6 3.0版本。
-
-
核心贡献:
-
网络设计
-
EfficientRep Backbone:
提出 RepVGG-style 骨干网络,通过 重参数化技术(RepOpt) 实现训练时多分支结构与推理时单路径的高效转换,兼顾训练稳定性与推理速度。
-
小模型使用 RepBlock 作为构建块,训练时采用多分支结构,推理时转换为单路径结构,兼顾效率和特征表达能力。
-
大模型使用 CSPStackRep Block,结合 CSP 连接,在计算成本和精度之间取得平衡。
-
-
Rep-PAN Neck: 采用 PAN 拓扑结构,并使用 RepBlock 或 CSPStackRep Block 进行增强,实现高效的特征融合。
-
Efficient Decoupled Head: 采用混合通道策略,减少中间卷积层数量,降低计算成本,提升推理速度。完全弃用锚框(Anchor-based),采用 解耦检测头,分离分类和回归任务,简化超参数调优并提升小目标检测精度。引入 动态标签分配(TAL, Task Alignment Learning),根据分类与回归任务的一致性动态匹配正样本。
-
-
损失函数
-
分类损失: 采用 VariFocal Loss (VFL),有效平衡正负样本的学习信号。
-
框回归损失:
-
小模型使用 SIoU Loss,大模型使用 GIoU Loss。
-
大模型还引入 DFL (Distribution Focal Loss),进一步提升框定位精度。将边界框的基础连续分布简化为离散分布,当ground truth的边界模糊时,这种方法能有效提高边界框定位精度。不过YOLOv6种,DFL仅仅引用于YOLOv6M/L。
-
-
对象损失: 实验表明对象损失对模型性能有负面影响,因此未被采用。
-
-
混合数据增强与量化友好设计
-
数据增强: YOLOv6 结合了 Mosaic、MixUp 和 RandomAffine 等多种数据增强策略,有效地提升了模型的鲁棒性和泛化能力,使其能够更好地应对各种复杂场景。
-
量化友好性: YOLOv6 在网络结构设计时考虑了 INT8 量化的友好性,例如避免产生大范围的激活值,限制卷积核尺寸等,从而减少了量化带来的误差,保证了量化模型的精度和性能。
-
-
工业应用改进
-
更多训练轮数: 延长训练时间,提升模型精度。
-
自蒸馏训练策略(Self-Distillation):提出 轻量级教师-学生协同训练框架,通过知识蒸馏提升小模型(如 YOLOv6s)的精度,无需额外标注或复杂架构。
-
图像灰边处理: 通过调整灰边大小和 Mosaic 增强策略,在保持性能的同时提升推理速度。
-
-
量化和部署
-
RepOptimizer: 使用 RepOptimizer 训练模型,获得更适合 PTQ 的权重分布,提升量化性能。
-
敏感性分析: 分析模型对量化的敏感性,将敏感层保持为浮点计算,提升 PTQ 性能。
-
QAT 和通道蒸馏: 采用 QAT 和通道蒸馏技术,进一步提升量化模型的精度和速度。
-
-
多尺度模型家族(YOLOv6n/s/m/l):提供从 Nano(1.9M参数)到 Large 的多尺度预训练模型,适配不同算力场景(边缘端到云端)。
-
-
性能表现:YOLOv6通过配置不同的参数预训练了多个不同大小的模型,其中YOLOv6-L在COCO 2017数据集上达到了52.5%的
。
YOLOv7
-
发布时间:2022
-
论文产出:yolov7: Trainable Bag-of-Freebies Sets New State-of-the-Art for Real-Time Object Detectors
-
代码仓库:https://github.com/WongKinYiu/yolov7
-
前序版本及其缺点
-
YOLOv6局限性:
-
处理高密度目标和重叠物体时,容易出现漏检或误检;
-
尽管模型结构轻量化,但量化性能存在问题<--重参数化结构导致数据分布不佳,影响了量化后模型的精度;
-
-
针对v6和v5所存在的问题,研究者们在v5模型的基础上进一步优化模型结构和功能,提出了YOLOv7。
-
-
核心贡献:
-
扩展的高效层聚合网络(E-ELAN): 改进 ELAN 结构,通过 分组卷积 和 动态通道重组 增强特征复用效率,提升骨干网络(CSPDarknet)的学习能力。引入 梯度路径解耦,优化梯度反向传播,避免深层网络训练中的信息衰减。
-
动态标签分配(Dynamic Label Assignment): 提出 动态软匹配策略(DSM),根据预测框与真实框的联合置信度动态分配正负样本,缓解人工阈值设定的局限性。结合 跨网格匹配(Cross-Grid Matching),允许标签分配给相邻网格单元,增强密集目标的检测稳定性。
-
可训练的“免费”优化策略(Trainable Bag-of-Freebies): 在不增加推理成本的前提下,通过 多分支辅助训练头(Aux Head) 和 梯度传播优化 提升主检测头的性能。提出 隐式知识蒸馏(Implicit Knowledge Distillation),利用辅助头指导主头学习,无需额外教师模型。
-
模型缩放策略(Model Scaling):统一设计 深度-宽度-分辨率-特征金字塔缩放规则,生成 YOLOv7-tiny/s/m/l/x 系列,适配不同硬件需求。
-
复合重参数化模块(Planar Reparam): 提出 规划重参数化(Planned Re-parameterization),将多分支卷积结构(训练时)合并为单路径(推理时),降低计算冗余。支持 动态卷积核融合,提升 GPU 并行计算效率,如 YOLOv7 在 V100 上推理速度达 161 FPS。
-
复合数据增强与损失函数优化: 结合 Mosaic++(增强版拼接)、Random Identity(随机身份替换)和 PhotoMetric Distortion(光度畸变)。提出 MPDIoU Loss,统一优化边界框中心点、宽高比和对角点距离,解决传统 IoU 损失的梯度模糊问题。
-
-
性能表现:YOLOv7-E6E(YOLOv7系列的最大模型)在 MS COCO 测试集和验证集上的性能分别达到56.8%和56.8%
;74.4%的
。参数量为151.7M,在V100上的推理速度为36FPS。
YOLOv8
-
发布时间:2023
-
论文产出:🈚🈚🈚
-
代码仓库:https://github.com/ultralytics/ultralytics/tree/main/ultralytics/cfg/models/v8
-
前序版本及其缺点
-
YOLOv7局限性:
-
模型尺寸相对较大-->计算资源消耗较高-->移动端或嵌入式设备部署困难;
-
小目标和密集目标的检测能力较弱,容易出现漏检或误检;
-
训练过程较为复杂,需要更多的计算资源和优化技巧来达到最佳性能;
-
模型本身可解释性不足,复杂的网络结构使得理解其内部工作机制较为困难。
-
-
针对v7中所存在的问题,ultralytics的研究者们摒弃v7的架构,对v5的架构进行优化和改进,提出YOLOv8。
-
-
核心贡献:
-
统一任务接口(Unified Task Interface): 支持 目标检测、实例分割、关键点检测、分类 等多任务统一框架,用户仅需调整模式参数即可切换任务。 提供简洁的 CLI 和 Python API,简化训练、验证、部署流程。
-
可扩展的模块化架构: 采用 动态网络设计,通过配置文件(YAML)灵活调整骨干网络、检测头、损失函数等组件,适配不同任务需求。引入 C2f (改进的跨阶段部分连接)模块,结合多分支残差结构和通道重加权机制,增强特征复用并优化梯度流。
-
自适应训练策略: 动态锚框优化(AutoAnchor v2):在训练过程中实时调整锚框尺寸,无需预聚类分析。智能学习率调度:根据损失收敛情况自动调整学习率,支持
cosine
、linear
、one-cycle
等策略。 -
损失函数与标签分配改进: DFL(Distribution Focal Loss):将边界框回归建模为概率分布学习,提升定位精度。 Task-Aligned Assigner:根据分类置信度与回归IoU动态分配正样本,优化任务一致性。
-
高效推理优化: 无锚点(Anchor-Free)检测头:简化输出层设计,减少超参数依赖,提升小目标检测能力。 混合精度训练与量化感知训练(QAT):原生支持 FP16/INT8 训练,导出 ONNX/TensorRT 模型时自动优化计算图。
-
多平台部署支持: 支持 TensorRT、ONNX、CoreML、OpenVINO 等格式一键导出,适配 NVIDIA Jetson、Intel CPU、Apple M1/2 等硬件。提供 NCNN、TFLite 边缘端部署方案,模型体积缩小至 3MB(YOLOv8n-TFLite)。
-
数据增强与训练加速: Mosaic9:扩展至 9 图拼接增强,结合混合尺度、旋转、色彩变换,提升模型泛化能力。
Batch Size 自动缩放:根据显存容量动态调整批次大小,最大化 GPU 利用率。
-
-
性能表现:YOLOv8x(YOLOv8系列的最大模型)在 MS COCO 验证集上的性能达到 53.9% 的
,参数量仅68.2M。
YOLOv9
-
发布时间:2024
-
论文产出:yolov9: Learning What You Want to Learn Using Programmable Gradient Information
-
代码仓库:https://github.com/WongKinYiu/yolov9
-
前序版本及其缺点
-
YOLOv8局限性:
-
小目标检测能力不够理想<--模型采用固定大小的网格划分-->小目标的特征提取不充分,导致检测精度受限;
-
在复杂背景或遮挡严重的场景中,检测精度受影响,模型难以区分前景目标与背景;
-
对长宽比差异较大的目标检测效果较差,限制了其在某些特定场景下的应用;
-
-
针对v8中所存在的问题,v4和v7的研究者们继续在v7基础上进行优化和整理,提出YOLOv9。
-
-
核心贡献:
-
可编程梯度信息(PGI, Programmable Gradient Information): 辅助可逆分支(Auxiliary Reversible Branch):通过引入可逆架构生成可靠的梯度信息,缓解深度网络中的信息瓶颈问题,确保主分支在反向传播时能接收完整的目标关联信息,避免传统深度监督的误差累积。 多级辅助信息(Multi-level Auxiliary Information):整合来自不同特征金字塔层次的梯度信息,避免浅层特征因特定任务目标(如小目标检测)丢失全局语义信息,增强多尺度目标检测的鲁棒性。 零推理成本:PGI仅在训练阶段引入额外分支,推理时完全移除,保持模型轻量与高效。
-
广义高效层聚合网络(GELAN, Generalized Efficient Layer Aggregation Network): 灵活计算块设计:结合CSPNet与ELAN的优势,允许用户根据硬件需求自由替换卷积块(如CSP、Res、Dark块),支持动态调整网络深度与宽度。 梯度路径规划:通过优化特征复用与梯度流,提升参数利用率。GELAN仅使用常规卷积即超越基于深度可分离卷积(Depth-wise Conv)的SOTA方法,在相同参数量下AP提升0.4-0.6%。 多尺度适应性:通过调整ELAN与CSP模块的深度(如
D_{ELAN}
和D_{CSP}
),平衡模型性能与计算开销,适配从边缘设备到服务器的多场景需求。 -
轻量级模型训练突破: 免预训练优势:仅通过从头训练(Train-from-Scratch)即在MS COCO上超越基于ImageNet预训练的模型(如RT DETR-X),AP达55.6%(YOLOv9-E)。 动态标签分配优化:结合YOLOv7的引导头(Lead Head)策略,提升正样本匹配效率,缓解轻量模型因参数不足导致的信息丢失问题。
-
-
性能表现:YOLOv9-E(YOLOv9系列的最大模型)具有57.3M的参数,在 MS COCO 验证集上的性能达到 55.6% 的
和 72.8% 的
。
YOLOv10
-
发布时间:2024
-
论文产出:yolov10: Real-Time End-to-End Object Detection
-
代码仓库:https://github.com/THU-MIG/yolov10
-
前序版本及其缺点
-
YOLOv9局限性:
-
计算量较大<--由于引入PGI和GELAN,模型复杂度增加;
-
在某些配置下,推理速度可能会比v7稍慢,限制了实时性要求极高的场景应用;
-
主要专注于目标检测任务,对于更广泛的任务支持可能效果不佳。
-
-
清华大学团队的研究者们对v8的框架进行优化,提出YOLOv10。
-
-
核心贡献:
-
一致动态双重分配(Consistent Dual Assignments):训练阶段联合优化一对多分支(提供密集监督)和一对一分支(消除冗余预测),推理阶段仅保留一对一分支,彻底移除NMS后处理,端到端延迟降低37%~70%。
-
深度可分离分类头:基于回归任务重要性分析,发现相比之下,分类头对性能影响较小,因此蒋分类头参数量减少60%(1.51M→0.64M),FLOPs降低63%(5.95G→2.34G)。
-
空间-通道解耦下采样:分离空间降维与通道扩展(Pointwise+Depthwise卷积),FLOPs减少24%~38%,信息保留率提升15%。
-
秩导向块设计(Rank-Guided Block):根据特征矩阵秩动态替换冗余模块(如CIB块),参数量减少28%~57%(YOLOv8-X 68.2M → YOLOv10-X 29.5M)。
-
部分自注意力(PSA):对低分辨率特征(Stage4后)的50%通道进行注意力计算,大模型(YOLOv10-X)AP提升0.5%,计算开销仅增加0.15ms。
-
-
性能表现:YOLOv10-X(YOLOv10系列的最大模型)具有29.5M的参数,在 MS COCO 验证集上的性能达到 54.4% 的
。
YOLOv11
-
发布时间:2024年9月30日
-
论文产出:
-
代码仓库:YOLO系列官方团队 Ultralytics
-
前序版本及其缺点
-
YOLOv10局限性:
-
通过无NMS设计优化了推理速度,但在小目标检测和密集目标检测方面精度较差;
-
优化以降低计算冗余,但在资源受限的设备上,计算需求仍然是限制因素。
-
-
Ultralytics的研究者们整合v10和v8的设计理念,提出YOLO11。
-
-
模型定位:YOLO11 是 YOLO 系列在 2025 年之前的 SOTA 模型,基于前代版本进行了全面升级,提升了性能与灵活性。 具体指标请访问其文档:yolo11 performance-metrics
-
主要特性
-
新功能与改进:YOLO11 在前代模型基础上,集成了多项优化措施,以提升整体表现。
-
高效特征提取:增强的特征提取能力,在保持高准确率的同时,实现更快的推理速度。
-
参数优化:YOLO11m 在 COCO 数据集上取得更高的 mAP,参数量相比 YOLOv8m 减少 22%,提高计算效率且不损失精度。
-
任务支持:广泛适用于 目标检测、实例分割、图像分类、姿态估计、定向边界框检测 等视觉任务。
-
-
核心贡献:
-
C3k2 模块:YOLO11 引入了 C3k2 模块,做到了更快的处理速度和更高的参数效率。C3k2是一种 Cross-Stage Partial (CSP) Bottleneck 的高效实现。它取代了 Backbone和 Neck中的 C2F 块,并采用两个较小的卷积而不是一个大型卷积,从而减少了处理时间。
-
C2PSA 模块:在
Spatial Pyramid
Pooling-Fast(SPPF)
模块之后引入C2 Position-Sensitive Attention
(C2PSA)
模块,以增强空间注意力。这种注意力机制使模型能够更有效地关注图像中的重要区域,从而有可能提高检测准确性。其中,YOLO11的(C2PSA)模块是使用了PSA
Block
模块。包括上述 C3k2 模块,也可以说是继承了YOLO10的 C2F 模块。总之,YOLO 这个系列是继承和创新并行的。 -
其他:更先进的特征提取、简化参数数量、优化的速度和性能、广泛的任务支持在保持性能的同时降低参数两。
-
YOLOv12
尽情期待!更多更详细的内容介绍请大家移步学习文档中查看。