iou算法
‘壹’ 【目标检测算法解读】yolo系列算法二
https://blog.csdn.net/Gentleman_Qin/article/details/84349144
|声明:遵循CC 4.0 BY-SA版权协议
建立在YOLOv1的基础上,经过Joseph Redmon等的改进,YOLOv2和YOLO9000算法在2017年CVPR上被提出,并获得最佳论文提名,重点解决YOLOv1召回率和定位精度方面的误差。在提出时,YOLOv2在多种监测数据集中都要快过其他检测系统,并可以在速度与精确度上进行权衡。
YOLOv2采用Darknet-19作为特征提取网络,增加了批量标准化(Batch Normalization)的预处理,并使用224×224和448×448两阶段训练ImageNet,得到预训练模型后fine-tuning。
相比于YOLOv1是利用FC层直接预测Bounding Box的坐标,YOLOv2借鉴了FSR-CNN的思想,引入Anchor机制,利用K-Means聚类的方式在训练集中聚类计算出更好的Anchor模板,在卷积层使用Anchor Boxes操作,增加Region Proposal的预测,同时采用较强约束的定位方法,大大提高算法召回率。同时结合图像细粒度特征,将浅层特征与深层特征相连,有助于对小尺寸目标的检测。
下图所示是YOLOv2采取的各项改进带了的检测性能上的提升:
YOLO9000 的主要检测网络也是YOLO v2,同时使用WordTree来混合来自不同的资源的训练数据,并使用联合优化技术同时在ImageNet和COCO数据集上进行训练,目的是利用数量较大的分类数据集来帮助训练检测模型,因此,YOLO 9000的网络结构允许实时地检测超过9000种物体分类,进一步缩小了检测数据集与分类数据集之间的大小代沟。
下面将具体分析YOLOv2的各个创新点:
BN概述:
对数据进行预处理(统一格式、均衡化、去噪等)能够大大提高训练速度,提升训练效果。BN正是基于这个假设的实践,对每一层输入的数据进行加工。
BN是2015年Google研究员在论文《Batch Normalization: Accelerating Deep Network Training by Recing Internal Covariate Shift》一文中提出的,同时也将BN应用到了2014年的GoogLeNet上,也就是Inception-v2。
BN层简单讲就是对网络的每一层的输入都做了归一化,这样网络就不需要每层都去学数据的分布,收敛会更快。YOLOv1算法(采用的是GoogleNet网络提取特征)是没有BN层的,而在YOLOv2中作者为每个卷积层都添加了BN层。
使用BN对网络进行优化,让网络提高了收敛性,同时还消除了对其他形式的正则化(regularization)的依赖,因此使用BN后可以从模型中去掉Dropout,而不会产生过拟合。
BN优点:
神经网络每层输入的分布总是发生变化,加入BN,通过标准化上层输出,均衡输入数据分布,加快训练速度,因此可以设置较大的学习率(Learning Rate)和衰减(Decay);
通过标准化输入,降低激活函数(Activation Function)在特定输入区间达到饱和状态的概率,避免梯度弥散(Gradient Vanishing)问题;
输入标准化对应样本正则化,BN在一定程度上可以替代 Dropout解决过拟合问题。
BN算法:
在卷积或池化之后,激活函数之前,对每个数据输出进行标准化,方式如下图所示:
公式很简单,前三行是 Batch内数据归一化(假设一个Batch中有每个数据),同一Batch内数据近似代表了整体训练数据。第四行引入了附加参数 γ 和 β,此二者的取值算法可以参考BN论文,在此不再赘述。
fine-tuning:用已经训练好的模型,加上自己的数据集,来训练新的模型。即使用别人的模型的前几层,来提取浅层特征,而非完全重新训练模型,从而提高效率。一般新训练模型准确率都会从很低的值开始慢慢上升,但是fine-tuning能够让我们在比较少的迭代次数之后得到一个比较好的效果。
YOLO模型分为两部分,分类模型和检测模型,前者使用在ImageNet上预训练好的模型,后者在检测数据集上fine-tuning。
YOLOv1在预训练时采用的是224*224的输入(在ImageNet数据集上进行),然后在检测的时候采用448*448的输入,这会导致从分类模型切换到检测模型的时候,模型还要适应图像分辨率的改变。
YOLOv2则将预训练分成两步:先用224*224的输入在ImageNet数据集训练分类网络,大概160个epoch(将所有训练数据循环跑160次)后将输入调整到448*448,再训练10个epoch(这两步都是在ImageNet数据集上操作)。然后利用预训练得到的模型在检测数据集上fine-tuning。这样训练得到的模型,在检测时用448*448的图像作为输入可以顺利检测。
YOLOv1将输入图像分成7*7的网格,每个网格预测2个Bounding Box,因此一共有98个Box,同时YOLOv1包含有全连接层,从而能直接预测Bounding Boxes的坐标值,但也导致丢失较多的空间信息,定位不准。
YOLOv2首先将YOLOv1网络的FC层和最后一个Pooling层去掉,使得最后的卷积层可以有更高分辨率的特征,然后缩减网络,用416*416大小的输入代替原来的448*448,使得网络输出的特征图有奇数大小的宽和高,进而使得每个特征图在划分单元格(Cell)的时候只有一个中心单元格(Center Cell)。
为什么希望只有一个中心单元格呢?由于图片中的物体都倾向于出现在图片的中心位置,特别是比较大的物体,所以有一个单元格单独位于物体中心的位置用于预测这些物体。
YOLOv2通过引入Anchor Boxes,通过预测Anchor Box的偏移值与置信度,而不是直接预测坐标值。YOLOv2的卷积层采用32这个值来下采样图片,所以通过选择416*416用作输入尺寸最终能输出一个13*13的特征图。若采用FSRCNN中的方式,每个Cell可预测出9个Anchor Box,共13*13*9=1521个(YOLOv2确定Anchor Boxes的方法见是维度聚类,每个Cell选择5个Anchor Box)。
在FSRCNN中,以一个51*39大小的特征图为例,其可以看做一个尺度为51*39的图像,对于该图像的每一个位置,考虑9个可能的候选窗口:3种面积3种比例。这些候选窗口称为Anchor Boxes。下图示出的是51*39个Anchor Box中心,以及9种Anchor Box示例。
YOLOv1和YOLOv2特征图数据结构:
YOLOv1:S*S* (B*5 + C) => 7*7(2*5+20)
其中B对应Box数量,5对应边界框的定位信息(w,y,w,h)和边界框置信度(Confidience)。分辨率是7*7,每个Cell预测2个Box,这2个Box共用1套条件类别概率(1*20)。
YOLOv2:S*S*K* (5 + C) => 13*13*9(5+20)
分辨率提升至13*13,对小目标适应性更好,借鉴了FSRCNN的思想,每个Cell对应K个Anchor box(YOLOv2中K=5),每个Anchor box对应1组条件类别概率(1*20)。
聚类:聚类是指事先没有“标签”而通过某种成团分析找出事物之间存在聚集性原因的过程。即在没有划分类别的情况下,根据数据相似度进行样本分组。
在FSR-CNN中Anchor Box的大小和比例是按经验设定的,然后网络会在训练过程中调整Anchor Box的尺寸,最终得到准确的Anchor Boxes。若一开始就选择了更好的、更有代表性的先验Anchor Boxes,那么网络就更容易学到准确的预测位置。
YOLOv2使用K-means聚类方法类训练Bounding Boxes,可以自动找到更好的宽高维度的值用于一开始的初始化。传统的K-means聚类方法使用的是欧氏距离函数,意味着较大的Anchor Boxes会比较小的Anchor Boxes产生更多的错误,聚类结果可能会偏离。由于聚类目的是确定更精准的初始Anchor Box参数,即提高IOU值,这应与Box大小无关,因此YOLOv2采用IOU值为评判标准,即K-means 采用的距离函数(度量标准) 为:
d(box,centroid) = 1 - IOU(box,centroid)
如下图,左边是聚类的簇个数和IOU的关系,两条曲线分别代表两个不同的数据集。分析聚类结果并权衡模型复杂度与IOU值后,YOLOv2选择K=5,即选择了5种大小的Box 维度来进行定位预测。
其中紫色和灰色也是分别表示两个不同的数据集,可以看出其基本形状是类似的。更重要的是,可以看出聚类的结果和手动设置的Anchor Box位置和大小差别显着——结果中扁长的框较少,而瘦高的框更多(更符合行人的特征)。
YOLOv2采用的5种Anchor的Avg IOU是61,而采用9种Anchor Boxes的Faster RCNN的Avg IOU是60.9,也就是说本文仅选取5种box就能达到Faster RCNN的9中box的效果。选择值为9的时候,AVG IOU更有显着提高。说明K-means方法的生成的boxes更具有代表性。
直接对Bounding Boxes求回归会导致模型不稳定,其中心点可能会出现在图像任何位置,有可能导致回归过程震荡,甚至无法收敛,尤其是在最开始的几次迭代的时候。大多数不稳定因素产生自预测Bounding Box的中心坐标(x,y)位置的时候。
YOLOv2的网络在特征图(13*13)的每一个单元格中预测出5个Bounding Boxes(对应5个Anchor Boxes),每个Bounding Box预测出5个值(tx,ty,tw,th,t0),其中前4个是坐标偏移值,t0是置信度结果(类似YOLOv1中的边界框置信度Confidence)。YOLOv2借鉴了如下的预测方式,即当Anchor Box的中心坐标和宽高分别是(xa,ya)和(wa,wh)时,Bounding Box坐标的预测偏移值(tx,ty,tw,th)与其坐标宽高(x,y,w,h)的关系如下:
tx = (x-xa)/wa
ty= (y-ya)/ha
tw = log(w/wa)
th = log(h/ha)
基于这种思想,YOLOv2在预测Bounding Box的位置参数时采用了如下强约束方法:
上图中,黑色虚线框是Anchor Box,蓝色矩形框就是预测的Bounding Box结果,预测出的Bounding Box的坐标和宽高为(bx,by)和(bw,bh),计算方式如图中所示,其中:对每个Bounding Box预测出5个值(tx,ty,tw,th,t0),Cell与图像左上角的横纵坐标距离为(cx,cy),σ定义为sigmoid激活函数(将函数值约束到[0,1]),该Cell对应的Anchor Box对应的宽高为(pw,ph)。
简而言之,(bx,by)就是(cx,cy)这个Cell附近的Anchor Box针对预测值(tx,ty)得到的Bounding Box的坐标预测结果,同时可以发现这种方式对于较远距离的Bounding Box预测值(tx,ty)能够得到很大的限制。
YOLOv2通过添加一个转移层,把高分辨率的浅层特征连接到低分辨率的深层特征(把特征堆积在不同Channel中)而后进行融合和检测。具体操作是先获取前层的26*26的特征图,将其同最后输出的13*13的特征图进行连接,而后输入检测器进行检测(检测器的FC层起到了全局特征融合的作用),以此来提高对小目标的检测能力。
为了适应不同尺度下的检测任务,YOLOv2在训练网络时,其在检测数据集上fine-tuning时候采用的输入图像的size是动态变化的。具体来讲,每训练10个Batch,网络就会随机选择另一种size的输入图像。因为YOLOv2用到了参数是32的下采样,因此也采用32的倍数作为输入的size,即采用{320,352,…,608}的输入尺寸(网络会自动改变尺寸,并继续训练的过程)。
这一策略让网络在不同的输入尺寸上都能达到较好的预测效果,使同一网络能在不同分辨率上进行检测。输入图片较大时,检测速度较慢,输入图片较小时,检测速度较快,总体上提高了准确率,因此多尺度训练算是在准确率和速度上达到一个平衡。
上表反映的是在检测时,不同大小的输入图片情况下的YOLOv2和其他目标检测算法的对比。可以看出通过多尺度训练的检测模型,在测试的时候,输入图像在尺寸变化范围较大的情况下也能取得mAP和FPS的平衡。
YOLOv1采用的训练网络是GoogleNet,YOLOv2采用了新的分类网络Darknet-19作为基础网络,它使用了较多的3*3卷积核,并把1*1的卷积核置于3*3的卷积核之间,用来压缩特征,同时在每一次池化操作后把通道(Channels)数翻倍(借鉴VGG网络)。
YOLOv1采用的GooleNet包含24个卷积层和2个全连接层,而Darknet-19包含19个卷积层和5个最大池化层(Max Pooling Layers),后面添加Average Pooling层(代替v1中FC层),而Softmax分类器作为激活被用在网络最后一层,用来进行分类和归一化。
在ImageNet数据集上进行预训练,主要分两步(采用随机梯度下降法):
输入图像大小是224*224,初始学习率(Learning Rate)为0.1,训练160个epoch,权值衰减(Weight Decay)为0.0005,动量(Momentum)为0.9,同时在训练时采用标准的数据增强(Data Augmentation)方式如随机裁剪、旋转以及色度、亮度的调整。
fine-tuning:第1步结束后,改用448*448输入(高分辨率模型),学习率改为0.001,训练10个epoch,其他参数不变。结果表明:fine-tuning后的top-1准确率为76.5%,top-5准确率为93.3%,若按照原来的训练方式,Darknet-19的top-1准确率是72.9%,top-5准确率为91.2%。可以看出,两步分别从网络结构和训练方式方面入手提高了网络分类准确率。
预训练之后,开始基于检测的数据集再进行fine-tuning。
首先,先把最后一个卷积层去掉,然后添加3个3*3的卷积层,每个卷积层有1024个卷积核,并且后面都连接一个1*1的卷积层,卷积核个数(特征维度)根据需要检测的类数量决定。(比如对VOC数据,每个Cell需要预测5个Boungding Box,每个Bounding Box有4个坐标值、1个置信度值和20个条件类别概率值,所以每个单元格对应125个数据,此时卷积核个数应该取125。)
然后,将最后一个3*3*512的卷积层和倒数第2个卷积层相连(提取细粒度特征),最后在检测数据集上fine-tuning预训练模型160个epoch,学习率采用0.001,并且在第60和90个epoch的时候将学习率除以10,权值衰减、动量和数据增强方法与预训练相同。
YOLO9000通过结合分类和检测数据集,使得训练得到的模型可以检测约9000类物体,利用带标注的分类数据集量比较大的特点,解决了带标注的检测数据集量比较少的问题。具体方法是:一方面采用WordTree融合数据集,另一方面联合训练分类数据集和检测数据集。
分类数据集和检测数据集存在较大差别:检测数据集只有粗粒度的标记信息,如“猫”、“狗”,而分类数据集的标签信息则更细粒度,更丰富。比如“狗”就包括“哈士奇”、“金毛狗”等等。所以如果想同时在检测数据集与分类数据集上进行训练,那么就要用一种一致性的方法融合这些标签信息。
用于分类的方法,常用Softmax(比如v2),Softmax意味着分类的类别之间要互相独立的,而ImageNet和COCO这两种数据集之间的分类信息不相互独立(ImageNet对应分类有9000种,而COCO仅提供80种目标检测),所以使用一种多标签模型来混合数据集,即假定一张图片可以有多个标签,并且不要求标签之间独立,而后进行Softmax分类。
由于ImageNet的类别是从WordNet选取的,作者采用以下策略重建了一个树形结构(称为WordTree):
遍历ImageNet的标签,然后在WordNet中寻找该标签到根节点(所有的根节点为实体对象)的路径;
如果路径只有一条,将该路径直接加入到WordTree结构中;
否则,从可选路径中选择一条最短路径,加入到WordTree结构中。
WordTree的作用就在于将两种数据集按照层级进行结合。
如此,在WordTree的某个节点上就可以计算该节点的一些条件概率值,比如在terrier这个节点,可以得到如下条件概率值:
进而,如果要预测此节点的概率(即图片中目标是Norfolk terrier的概率),可以根据WordTree将该节点到根节点的条件概率依次相乘得到,如下式:
其中:
YOLO9000在WordTree1k(用有1000类别的ImageNet1k创建)上训练了Darknet-19模型。为了创建WordTree1k作者添加了很多中间节点(中间词汇),把标签由1000扩展到1369。
训练过程中GroundTruth标签要顺着向根节点的路径传播:为了计算条件概率,模型预测了一个包含1369个元素的向量,而且基于所有“同义词集”计算Softmax,其中“同义词集”是同一概念下的所属词。
现在一张图片是多标记的,标记之间不需要相互独立。在训练过程中,如果有一个图片的标签是“Norfolk terrier”,那么这个图片还会获得“狗”以及“哺乳动物”等标签。
如上图所示,之前的ImageNet分类是使用一个大Softmax进行分类,而现在WordTree只需要对同一概念下的同义词进行Softmax分类。然后作者分别两个数据集上用相同训练方法训练Darknet-19模型,最后在ImageNet数据集上的top-1准确率为72.9%,top-5准确率为91.2%;在WordTree数据集上的top-1准确率为71.9%,top-5准确率为90.4%。
这种方法的好处是有“退而求其次”的余地:在对未知或者新的物体进行分类时,性能损失更低,比如看到一个狗的照片,但不知道是哪种种类的狗,那么就预测其为“狗”。
以上是构造WordTree的原理,下图是融合COCO数据集和ImageNet数据集以及生成它们的WordTree的示意图(用颜色区分了COCO数据集和ImageNet数据集的标签节点), 混合后的数据集对应的WordTree有9418个类。另一方面,由于ImageNet数据集太大,YOLO9000为了平衡两个数据集之间的数据量,通过过采样(Oversampling)COCO数据集中的数据,使COCO数据集与ImageNet数据集之间的数据量比例达到1:4。
对YOLO9000进行评估,发现其mAP比DPM高,而且YOLO有更多先进的特征,YOLO9000是用部分监督的方式在不同训练集上进行训练,同时还能检测9000个物体类别,并保证实时运行。虽然YOLO9000对动物的识别性能很好,但是对衣服或者装备的识别性能不是很好(这跟数据集的数据组成有关)。
YOLO9000的网络结构和YOLOv2类似,区别是每个单元格只采用3个Anchor Boxes。
YOLO9000提出了一种在分类数据集和检测数据集上联合训练的机制,即使用检测数据集(COCO)的图片去学习检测相关的信息即查找对象(例如预测边界框坐标、边界框是否包含目标及目标属于各个类别的概率),使用仅有类别标签的分类数据集(ImageNet)中的图片去扩展检测到的对象的可识别种类。
具体方法是:当网络遇到一个来自检测数据集的图片与标记信息,就把这些数据用完整的损失函数(v2和9000均沿用了v1网络的损失函数)反向传播,而当网络遇到一个来自分类数据集的图片和分类标记信息,只用代表分类误差部分的损失函数反向传播这个图片。
YOLO v2 在大尺寸图片上能够实现高精度,在小尺寸图片上运行更快,可以说在速度和精度上达到了平衡,具体性能表现如下所示。
coco数据集
voc2012数据集
‘贰’ YOLO(一) 算法的原理及演变
第一次接触到yolo这个算法是通过吴恩达的教学视频了解到的,当时其实也算是第一次接触到目标检测算法。这里我们主要介绍下YOLO(You Only Look Once)。现在已经进化到了V3版本了。它不同于Faster RCNN这个分支走的两部策略先进行前景识别在进行目标检测,它是直接一步到位进行目标检测。因此在识别的速度上优于Faster RCNN(5 FPS), 而 YOLO_v1基础版在Titan X GPU上可以达到45帧/s; 快速版可以达到150帧/s。但是在准确率上YOLO是稍差与Faster RCNN这个在之后会详细介绍。顺便提下如果想了解Faster RCNN原理可以参考 Faster-RCNN的原理及演变 。
我们知道YOLO其实就是 You Only Look Once, 意思是只需要看一眼就知道位置及对象,个人觉得蛮形象的。他不需要Faster RCNN的RPN结构,他其实选取anchor是预订了候选框,将图片划分为7x7的网格,每个网格允许有2个不同的bounding box. 这样一开始我们就有7x7x2个候选框(bounding box), 大致粗略覆盖了图像的整个区域。他的思想就是Faster RCNN在第一阶段就算有了回归框,在第二阶段还是需要进行精调,那还不如就先生成大致回归框就ok了。
下面我们就来好好介绍一下这个模型。
一、模型结构
其实将这个模型简单话为:
那30又是如何形成的通道大小的呢?
a. 2个bounding box的位置(8个通道)
每个bounding box需要4个数值来表示其位置,(Center_x,Center_y,width,height),即(bounding box的中心点的x坐标,y坐标,bounding box的宽度,高度),2个bounding box共需要8个数值来表示其位置。
b. 2个bounding box 置信度(2个通道)
c. 20分类概率(20个通道)
下面我们来说一下剩下20维度的分类通道。每一个通道代表一个类别的分类概率。因为YOLO支持识别20种不同的对象(人、鸟、猫、汽车、椅子等),所以这里有20个值表示该网格位置存在任一种对象的概率。 但是我们一组图片只能预测49个对象,可以理解为一个grid2个achor只能有一个预测准的对象(即计算IOU比例最大的那个anchor),所以7x7个对象 。
图中将自行车的位置放在bounding box1,但实际上是在训练过程中等网络输出以后,比较两个bounding box与自行车实际位置的IOU,自行车的位置(实际bounding box)放置在IOU比较大的那个bounding box(图中假设是bounding box1),且该bounding box的置信度设为1
二、 损失函数
总的来说,就是用网络输出与样本标签的各项内容的误差平方和作为一个样本的整体误差。
损失函数中的几个项是与输出的30维向量中的内容相对应的。
三、 YOLO v1 缺陷
注意:
细节:
YOLO的最后一层采用线性激活函数,其它层都是Leaky ReLU。训练中采用了drop out和数据增强(data augmentation)来防止过拟合。更多细节请参考原论文
在67 FPS,YOLOv2在PASCAL VOC 2007上获得76.8%的mAP。在40 FPS时,YOLOv2获得78.6%mAP,这比使用ResNet和SSD 更快的R-CNN更好。凭借如此优异的成绩,YOLOv2于2017年CVPR发布并获得超过1000次引用。YOLO有两个缺点:一个缺点在于定位不准确,另一个缺点在于和基于region proposal的方法相比召回率较低。因此YOLOv2主要是要在这两方面做提升。另外YOLOv2并不是通过加深或加宽网络达到效果提升,反而是简化了网络。
下面主要从两点来介绍下YOLO v2的提升之处。分别是Better以及Faster.
1、Darknet-19
在YOLO v1中,作者采用的训练网络是基于GooleNet,这里作者将GooleNet和VGG16做了简单的对比,GooleNet在计算复杂度上要优于VGG16(8.25 billion operation VS 30.69 billion operation),但是前者在ImageNet上的top-5准确率要稍低于后者(88% VS 90%)。而在YOLO v2中,作者采用了新的分类模型作为基础网络,那就是Darknet-19。Table6是最后的网络结构:Darknet-19只需要5.58 billion operation。这个网络包含19个卷积层和5个max pooling层,而在YOLO v1中采用的GooleNet,包含24个卷积层和2个全连接层,因此Darknet-19整体上卷积卷积操作比YOLO v1中用的GoogleNet要少,这是计算量减少的关键。最后用average pooling层代替全连接层进行预测。这个网络在ImageNet上取得了top-5的91.2%的准确率。
2、Training for Classification
这里的2和3部分在前面有提到,就是训练处理的小trick。这里的training for classification都是在ImageNet上进行预训练,主要分两步:1、从头开始训练Darknet-19,数据集是ImageNet,训练160个epoch,输入图像的大小是224 224,初始学习率为0.1。另外在训练的时候采用了标准的数据增加方式比如随机裁剪,旋转以及色度,亮度的调整等。2、再fine-tuning 网络,这时候采用448 448的输入,参数的除了epoch和learning rate改变外,其他都没变,这里learning rate改为0.001,并训练10个epoch。结果表明fine-tuning后的top-1准确率为76.5%,top-5准确率为93.3%,而如果按照原来的训练方式,Darknet-19的top-1准确率是72.9%,top-5准确率为91.2%。因此可以看出第1,2两步分别从网络结构和训练方式两方面入手提高了主网络的分类准确率。
3、Training for Detection
在前面第2步之后,就开始把网络移植到detection,并开始基于检测的数据再进行fine-tuning。首先把最后一个卷积层去掉,然后添加3个3 3的卷积层,每个卷积层有1024个filter,而且每个后面都连接一个1 1的卷积层,1 1卷积的filter个数根据需要检测的类来定。比如对于VOC数据,由于每个grid cell我们需要预测5个box,每个box有5个坐标值和20个类别值,所以每个grid cell有125个filter(与YOLOv1不同,在YOLOv1中每个grid cell有30个filter,还记得那个7 7 30的矩阵吗,而且在YOLOv1中,类别概率是由grid cell来预测的,也就是说一个grid cell对应的两个box的类别概率是一样的,但是在YOLOv2中,类别概率是属于box的,每个box对应一个类别概率,而不是由grid cell决定,因此这边每个box对应25个预测值(5个坐标加20个类别值),而在YOLOv1中一个grid cell的两个box的20个类别值是一样的)。另外作者还提到将最后一个3 3*512的卷积层和倒数第二个卷积层相连。最后作者在检测数据集上fine tune这个预训练模型160个epoch,学习率采用0.001,并且在第60和90epoch的时候将学习率除以10,weight decay采用0.0005。
这里yolo v3相对于yolo v2有三点:1. 利用多尺度特征进行对象检测 2. 调整基础网络结构
‘叁’ IOU值的计算(目标检测相关)
该函数计算selectivesearch算法产生的候选框与样本的标注框之间的IOU,ver1中,前两个值为产生的boxes的左下角坐标。verticel2为样本标注框的左下角和右上角的坐标。
‘肆’ IoU-Net 笔记
IoU-Net 论文: Acquisition of Localization Confidence for Accurate Object Detection
旷视联合北大发的一篇论文,主要指出了目标检测方法中,非极大值抑制(NMS) 存在的问题。NMS 以分类置信度为基准执行,而分类置信度并不能很好地反映边框定位的准确程度,这导致一些更准确的定位在 NMS 过程中被抑制。IoU-Net 通过预测一个定位置信度(以 IoU 为预测目标),将定位置信度作为 NMS 的指标,以提升边框的准确度。此外,提出了一种基于优化的边框 refine 方法,代替边框回归。
非极大值抑制算法:
0. 对于一张图像的目标检测,其结果为 个边界框,其集合记为 ;选取 NMS 的评估指标 (依照基于 R-CNN 的方法,评估指标为边界框的分类置信度);预设重合度阈值 (重合度实际上是 IoU,为了防止和与 GT 的 IoU 混淆,此处写为重合度);NMS结果集合 预设为空集。
1. 对于 中 最大者 而言,将所有与它重合度大于 的边界框从 中移出,这些边界框被永久地舍弃。将 从 中移出,放入结果集合 。
2. 重复步骤 1 直到 成为空集。
3. 中的所有边界框为 NMS 的输出。
NMS 几乎是所有目标检测算法不可或缺的一步,它能防止冗余的边界框堆叠在同一个目标上。
1. 用分类置信度做 NMS 的指标缺乏一致性
一般而言,Two-stage 网络结构中,(1)首先由 RPN(或其它类似方法)提出 RoI 建议,这个过程中对 anchor 做一次边框回归,和判断内部有无目标;(2)然后 RoI 中的内容经过 RoI Pooling(或其它类似方法)后,输入一个分类网络做分类和边框回归;(3)对输出结果,以 分类置信度 为标准,进行 NMS 剔除冗余边界框。作者认为,在这个过程中,缺少一种评估 RoI 的“ 定位置信度 ”,它应当和分类置信度地位相似,用于当作 NMS 的标准。
NMS 最初被应用于边界框筛选时,就是用分类置信度作为评估指标的,毕竟这是网络的一个现成输出。但是,根据作者的实验,分类置信度最高的边界框,其 IoU 并不一定是最高的。如下图所示,存在很多反例。
统计所有边界框的分类置信度与 IoU 的关系(左下),能够发现它们并没有很好的相关性,尽管它们仍在一定程度上显示出正相关,但在分类置信度低的区域,仍有很多 IoU 较高的边界框,而在分类置信度较高的区域,也有不少边界框的 IoU 只有大概 60%~70%。而作者提出的定位置信度,则与 IoU 呈较好的线性关系(右下),定位置信度的高低能够更好地反映边界框的真实 IoU 大小。评估这两个分布的皮尔森相关系数,可知后者相关性更高。
2. 多次迭代的边框回归并不能单调提升边框定位结果
作者还观察到,有些方法做了多次的边框回归。以 Faster R-CNN 为例,这个过程中有两次边框回归,它们的意义很大程度上是重合的,第二次边框回归起到了 refine 的作用;另外也有一些方法——比如 Cascade R-CNN,采用了更多次数的边框回归。
基于实验性目的,作者在 FPN 框架下和 Cascade R-CNN 框架下,评估了取不同边框回归迭代次数时,最终输出的边框的 AP 指标。不论是基于 FPN 还是 Cascade R-CNN,在一定迭代次数后,边框的准确度都不增反降。数学上,它们的关系是非单调的。
所谓定位置信度,其实就是在网络的 R-CNN 部分,额外引入了一个支路,预测边界框和 GT 之间的 IoU。
然后是 IoU-guided NMS 算法,和原始的 NMS 算法几乎一样,只是评估指标改成网络预测的定位置信度。在保留定位置信度最大的边框的同时,如果该边框的分类置信度不如与它高度重叠的(但定位置信度较低的)边界框高,则将该边框的分类置信度记为更高的那个值。
Refine 边界框的问题可以被归纳为一个寻找最优变换参数 的问题:
其中 是 RPN 预测到的边界框, 是 GT 边界框; 是以 为参数的边界框变换函数; 是评估两个边界框之间的距离的指标,这里采用 IoU。
R-CNN 中提出的边框回归方法——称之为基于回归的方法——采用一个前馈的神经网络直接预测参数 ,但多次的迭代预测对输入分布的变换不具有鲁棒性,因此会形成前述的不单调的优化曲线。
作者提出的方法——称之为基于优化的方法——将 IoU 预测支路作为优化的目标函数,并提出了 Precise RoI Pooling 方法(后面讲)替代原来的 RoI Pooling 层,优化 RoI Pooling 层的可导性。因为 IoU 预测支路内部是可导的,所以可以简单地通过梯度上升算法寻找最优的 。
训练 R-CNN 时的采样策略和 Faster R-CNN 原文中略有不同。当选择 RoI 时,不再选择由 RPN 生成的 RoI Proposal,而是对 GT 应用几个随机的变换,舍去和原始 GT 重合度不足50%者,将剩下的作为 RoI。尽管并没有说明原因,但作者表示,从实验结果来看,这种采样方法优于将 RoI Proposal 用作训练 R-CNN 时的 RoI。个人感觉,训练刚开始 RPN 并没有学到 GT 的分布,输出的 RoI Proposal 和 GT 偏差很大,这使得基于 RoI Proposal 的 R-CNN 训练在这个阶段几乎是没有意义的,而作者的做法在一定程度上避免了这个问题。
‘伍’ 经典目标检测算法介绍
姓名:牛晓银;学号:20181213993;学院:计算机科学与技术
转自:https://zhuanlan.hu.com/p/34142321
【嵌牛导读】:目标检测,也叫目标提取,是一种基于目标几何和统计特征的图像分割。随着计算机技术的发展和计算机视觉原理的广泛应用,利用计算机图像处理技术对目标进行实时跟踪研究越来越热门,对目标进行动态实时跟踪定位在智能化交通系统、军事目标检测及医学导航手术中手术器械定位等方面具有广泛的应用价值。
【嵌牛鼻子】:目标检测、检测模型、计算机视觉
【嵌牛提问】:你知道或者用过哪些目标检测算法?
【嵌牛正文】:
(一)目标检测经典工作回顾
本文结构
两阶段模型因其对图片的两阶段处理得名,也称为基于区域(Region-based)的方法,我们选取R-CNN系列工作作为这一类型的代表。
R-CNN: R-CNN系列的开山之作
论文链接: Rich feature hierarchies for accurate object detection and semantic segmentation
本文的两大贡献:1)CNN可用于基于区域的定位和分割物体;2)监督训练样本数紧缺时,在额外的数据上预训练的模型经过fine-tuning可以取得很好的效果。第一个贡献影响了之后几乎所有2-stage方法,而第二个贡献中用分类任务(Imagenet)中训练好的模型作为基网络,在检测问题上fine-tuning的做法也在之后的工作中一直沿用。
传统的计算机视觉方法常用精心设计的手工特征(如SIFT, HOG)描述图像,而深度学习的方法则倡导习得特征,从图像分类任务的经验来看,CNN网络自动习得的特征取得的效果已经超出了手工设计的特征。本篇在局部区域应用卷积网络,以发挥卷积网络学习高质量特征的能力。
R-CNN将检测抽象为两个过程,一是基于图片提出若干可能包含物体的区域(即图片的局部裁剪,被称为Region Proposal),文中使用的是Selective Search算法;二是在提出的这些区域上运行当时表现最好的分类网络(AlexNet),得到每个区域内物体的类别。
另外,文章中的两个做法值得注意。
一是数据的准备。输入CNN前,我们需要根据Ground Truth对提出的Region Proposal进行标记,这里使用的指标是IoU(Intersection over Union,交并比)。IoU计算了两个区域之交的面积跟它们之并的比,描述了两个区域的重合程度。
文章中特别提到,IoU阈值的选择对结果影响显着,这里要谈两个threshold,一个用来识别正样本(如跟ground truth的IoU大于0.5),另一个用来标记负样本(即背景类,如IoU小于0.1),而介于两者之间的则为难例(Hard Negatives),若标为正类,则包含了过多的背景信息,反之又包含了要检测物体的特征,因而这些Proposal便被忽略掉。
另一点是位置坐标的回归(Bounding-Box Regression),这一过程是Region Proposal向Ground Truth调整,实现时加入了log/exp变换来使损失保持在合理的量级上,可以看做一种标准化(Normalization)操作。
小结
R-CNN的想法直接明了,即将检测任务转化为区域上的分类任务,是深度学习方法在检测任务上的试水。模型本身存在的问题也很多,如需要训练三个不同的模型(proposal, classification, regression)、重复计算过多导致的性能问题等。尽管如此,这篇论文的很多做法仍然广泛地影响着检测任务上的深度模型革命,后续的很多工作也都是针对改进这一工作而展开,此篇可以称得上"The First Paper"。
Fast R-CNN: 共享卷积运算
论文链接: Fast R-CNN
文章指出R-CNN耗时的原因是CNN是在每一个Proposal上单独进行的,没有共享计算,便提出将基础网络在图片整体上运行完毕后,再传入R-CNN子网络,共享了大部分计算,故有Fast之名。
上图是Fast R-CNN的架构。图片经过feature extractor得到feature map, 同时在原图上运行Selective Search算法并将RoI(Region of Interset,实为坐标组,可与Region Proposal混用)映射到到feature map上,再对每个RoI进行RoI Pooling操作便得到等长的feature vector,将这些得到的feature vector进行正负样本的整理(保持一定的正负样本比例),分batch传入并行的R-CNN子网络,同时进行分类和回归,并将两者的损失统一起来。
RoI Pooling 是对输入R-CNN子网络的数据进行准备的关键操作。我们得到的区域常常有不同的大小,在映射到feature map上之后,会得到不同大小的特征张量。RoI Pooling先将RoI等分成目标个数的网格,再在每个网格上进行max pooling,就得到等长的RoI feature vector。
文章最后的讨论也有一定的借鉴意义:
multi-loss traing相比单独训练classification确有提升
multi-scale相比single-scale精度略有提升,但带来的时间开销更大。一定程度上说明CNN结构可以内在地学习尺度不变性
在更多的数据(VOC)上训练后,精度是有进一步提升的
Softmax分类器比"one vs rest"型的SVM表现略好,引入了类间的竞争
更多的Proposal并不一定带来精度的提升
小结
Fast R-CNN的这一结构正是检测任务主流2-stage方法所采用的元结构的雏形。文章将Proposal, Feature Extractor, Object Classification&Localization统一在一个整体的结构中,并通过共享卷积计算提高特征利用效率,是最有贡献的地方。
Faster R-CNN: 两阶段模型的深度化
论文链接: Faster R-CNN: Towards Real Time Object Detection with Region Proposal Networks
Faster R-CNN是2-stage方法的奠基性工作,提出的RPN网络取代Selective Search算法使得检测任务可以由神经网络端到端地完成。粗略的讲,Faster R-CNN = RPN + Fast R-CNN,跟RCNN共享卷积计算的特性使得RPN引入的计算量很小,使得Faster R-CNN可以在单个GPU上以5fps的速度运行,而在精度方面达到SOTA(State of the Art,当前最佳)。
本文的主要贡献是提出Regional Proposal Networks,替代之前的SS算法。RPN网络将Proposal这一任务建模为二分类(是否为物体)的问题。
第一步是在一个滑动窗口上生成不同大小和长宽比例的anchor box(如上图右边部分),取定IoU的阈值,按Ground Truth标定这些anchor box的正负。于是,传入RPN网络的样本数据被整理为anchor box(坐标)和每个anchor box是否有物体(二分类标签)。RPN网络将每个样本映射为一个概率值和四个坐标值,概率值反应这个anchor box有物体的概率,四个坐标值用于回归定义物体的位置。最后将二分类和坐标回归的损失统一起来,作为RPN网络的目标训练。
由RPN得到Region Proposal在根据概率值筛选后经过类似的标记过程,被传入R-CNN子网络,进行多分类和坐标回归,同样用多任务损失将二者的损失联合。
小结
Faster R-CNN的成功之处在于用RPN网络完成了检测任务的"深度化"。使用滑动窗口生成anchor box的思想也在后来的工作中越来越多地被采用(YOLO v2等)。这项工作奠定了"RPN+RCNN"的两阶段方法元结构,影响了大部分后续工作。
单阶段(1-stage)检测模型
单阶段模型没有中间的区域检出过程,直接从图片获得预测结果,也被成为Region-free方法。
YOLO
论文链接: You Only Look Once: Unified, Real-Time Object Detection
YOLO是单阶段方法的开山之作。它将检测任务表述成一个统一的、端到端的回归问题,并且以只处理一次图片同时得到位置和分类而得名。
YOLO的主要优点:
快。
全局处理使得背景错误相对少,相比基于局部(区域)的方法, 如Fast RCNN。
泛化性能好,在艺术作品上做检测时,YOLO表现比Fast R-CNN好。
YOLO的工作流程如下:
1.准备数据:将图片缩放,划分为等分的网格,每个网格按跟Ground Truth的IoU分配到所要预测的样本。
2.卷积网络:由GoogLeNet更改而来,每个网格对每个类别预测一个条件概率值,并在网格基础上生成B个box,每个box预测五个回归值,四个表征位置,第五个表征这个box含有物体(注意不是某一类物体)的概率和位置的准确程度(由IoU表示)。测试时,分数如下计算:
等式左边第一项由网格预测,后两项由每个box预测,以条件概率的方式得到每个box含有不同类别物体的分数。 因而,卷积网络共输出的预测值个数为S×S×(B×5+C),其中S为网格数,B为每个网格生成box个数,C为类别数。
3.后处理:使用NMS(Non-Maximum Suppression,非极大抑制)过滤得到最后的预测框
损失函数的设计
损失函数被分为三部分:坐标误差、物体误差、类别误差。为了平衡类别不均衡和大小物体等带来的影响,损失函数中添加了权重并将长宽取根号。
小结
YOLO提出了单阶段的新思路,相比两阶段方法,其速度优势明显,实时的特性令人印象深刻。但YOLO本身也存在一些问题,如划分网格较为粗糙,每个网格生成的box个数等限制了对小尺度物体和相近物体的检测。
SSD: Single Shot Multibox Detector
论文链接: SSD: Single Shot Multibox Detector
SSD相比YOLO有以下突出的特点:
多尺度的feature map:基于VGG的不同卷积段,输出feature map到回归器中。这一点试图提升小物体的检测精度。
更多的anchor box,每个网格点生成不同大小和长宽比例的box,并将类别预测概率基于box预测(YOLO是在网格上),得到的输出值个数为(C+4)×k×m×n,其中C为类别数,k为box个数,m×n为feature map的大小。
小结
SSD是单阶段模型早期的集大成者,达到跟接近两阶段模型精度的同时,拥有比两阶段模型快一个数量级的速度。后续的单阶段模型工作大多基于SSD改进展开。
检测模型基本特点
最后,我们对检测模型的基本特征做一个简单的归纳。
检测模型整体上由基础网络(Backbone Network)和检测头部(Detection Head)构成。前者作为特征提取器,给出图像不同大小、不同抽象层次的表示;后者则依据这些表示和监督信息学习类别和位置关联。检测头部负责的类别预测和位置回归两个任务常常是并行进行的,构成多任务的损失进行联合训练。
相比单阶段,两阶段检测模型通常含有一个串行的头部结构,即完成前背景分类和回归后,把中间结果作为RCNN头部的输入再进行一次多分类和位置回归。这种设计带来了一些优点:
对检测任务的解构,先进行前背景的分类,再进行物体的分类,这种解构使得监督信息在不同阶段对网络参数的学习进行指导
RPN网络为RCNN网络提供良好的先验,并有机会整理样本的比例,减轻RCNN网络的学习负担
这种设计的缺点也很明显:中间结果常常带来空间开销,而串行的方式也使得推断速度无法跟单阶段相比;级联的位置回归则会导致RCNN部分的重复计算(如两个RoI有重叠)。
另一方面,单阶段模型只有一次类别预测和位置回归,卷积运算的共享程度更高,拥有更快的速度和更小的内存占用。读者将会在接下来的文章中看到,两种类型的模型也在互相吸收彼此的优点,这也使得两者的界限更为模糊。
‘陆’ 目标检测:IOU计算
在目标检测中,经常需要计算预测回归框和真实回归框的交并比(Intersection Over Union,IOU),也称重叠度,计算公式如下。
由于回归框只是确定物体的位置,不需要考虑物体的倾斜、旋转等情况。那么已知两个回归框A,B各自左上顶点右下顶点的坐标,如何计算二者的交集和并集。假定回归框A的左上顶点和右下顶点的坐标分为 ,回归框B的左上顶点和右下顶点的坐标分为 。为方便理解,将回归框用集合语言来描述:
则可得到不等式组:
成立时,集合A、B交集非空,且当不等式组成立时,交集C为:
求得预测回归框和真实回归框的交集和并集之后,可以很容易计算出IOU的值:
关于交并比计算的更详细内容,可以参考以下链接:
Yolo V1算法详解
‘柒’ 一文帮你搞定Yolov3
我们知道传统机器学习中如果要预测出一条短信是否为垃圾短信,我们会把很多条短信拿来做训练样本,然后每条短信的标签是用0和1来标注他是否为垃圾短信。通过将这些训练样本及对应的标签输入到机器学习模型中,使得模型能够学习怎样判别一条短信是否为垃圾短信,从而当随便拿一条短信输入到模型中,就能判断这个短信是否为垃圾短信了。
Yolov3算法的训练方法与传统机器学习算法训练的本质是一样的。
Yolov3中用来训练的样本实际上是一群框,yolov3通过训练这群样本框,让模型能够学习到如何将这群样本框挪动位置来框住图片中真实的物体。从而当随便拿一张图片,yolov3都能将这张图片中的物体给框住,并判断其类别。
这群样本框是怎么定义的,这群框的样本标签又该如何定义,我们接下来给大家介绍。
Yolov3的多尺度预测
Yolov3通过对图片卷积提取特征后会得到三个尺度的feature map,这三个尺度的feature map分别是13*13,26*26,52*52.然后对每个feature map的每个cell下分配三个anchor box,anchor box的尺寸有(10x13),(16x30),(33x23),(30x61),(62x45),(59x119),(116x90),(156x198),(373x326)这九种。怎么把这9个anchor box分配给3个feature map.我们可以通过如下分析得到:(10*13),(16*30),(33*23)属于小尺度的anchor box,主要用于检测小尺寸的物体,而feature map中52*52的感受野最小,适合检测小的物体,所以把(10*13),(16*30),(33*23)分配给52*52的feature map,(30x61),(62x45),(59x119)属于中等尺度的anchor box,主要用于检测中等尺寸的物体,所以把他分配给26*26(负责检测中等尺寸物体的feature map),(116x90),(156x198),(373x326)属于较大尺度的anchor box,主要用于检测较大尺寸的物体,所以把他分配给13*13(负责检测较大尺寸物体的feature map)的feature map.将上述anchor box分配好后,我们可以利用公式计算出anchor box在原图中的位置。这群在三个feature map的每一个cell下的anchor box,实际上就是我们模型的训练样本。如果将这群anchor box都还原回原图,每张图片上差不多有1万多个anchor box.我们都知道训练样本是要有样本标签的,那么yolov3是如何给训练样本(这群anchor box)打上标签呢?
如何给样本打标签
但是每张图片上就有1万多个anchor box,而且一张图片上可能有多个gt box.gt box就是我们对图片中标记的样本框。如果每一个anchor box都要打上gt box的标签,就会有两个问题,其一:anchor box与gt box之间如何对应?其二:每一张图片有一万多anchor box要训练,yolov3算法效率岂不太低。
为此yolov3采用了中心负责制,即gt box中心落在哪个cell,就由该cell上面的某个anchor box用来负责预测该gt box中的物体。
注意:不是每个cell下面都有3个anchor box吗,为什么只由某个anchor box负责预测该gt box呢?其实,这也很好解释,如果对一堆anchor box做位置移动,使其接近gtbox。那么肯定是与gt box重合度高的anchor box在做适当的坐标修正后比较接近该gt box.因此,每个gt box都要与anchor box计算交并比,找到与其交并比最大的anchor box来负责预测该gt box.
那具体来说一下操作流程:
首先生成13*13*3*(80+5),26*26*3*(80+5),52*52*3(80+5)这样维度大小的三个零矩阵。
对训练样本图片做循环,在每次循环中再对gtbox做循环,在每次gtbox循环中再对9个anchor box做循环。举个例子,有10张图片,每张图片上有3个gtbox(这个gtbox就是我们对样本图片上的物体进行标注的框),用9个anchor box与gt box计算iou,找到最大的iou对应的anchor box.例如,第四个anchor box与gt box的iou最大,而我们已经知道第四个anchor box分配给了26*26的feature map.所以当前这个gt box中的物体由26*26这个feature map中某个cell中的anchor box负责预测。
怎么找到这个cell呢?
将gt box所在的原图image划分成26*26的网格,看gt box的中心落在哪个cell上,feature map上对应的那个cell就负责预测这个gtbox中的物体。假设中心落在第四行第三列上。
那么图片中该gtbox中的物体由26*26的feature map中的(4,3)的这个cell里面的第一个anchor box来预测。因此我们只用将该gtbox的坐标,类别,置信度填入该anchor box 对应的位置就好了,因为这是我们的anchor box要达到的目标。注意:我们填入的并不是gt box的坐标,而是gt box与anchorbox的坐标之间通过编码公式换算出来的一种值。而第二个anchor box与第三个anchor box不负责预测物体,所以全部填0.
Yolov3的预测值
Yolov3中的预测值在3个feature map与3*3的filter卷积得到的结果中取得。以26*26的feature map为例,26*26*256的feature map和3*3*256*(3*85)做卷积运算,输出26*26*(3*85)的预测值.这个85中80是预测的anchor box中属于每一类别的概率,4是gtbox与anchor box之间的偏移量,1是置信度,是这个anchor box中有无物体的概率和anchor box与其对应的gt box之间iou的乘积。
损失计算
上面将yolov3的样本标签,及每个样本的预测值做了解释,接下来就是如何计算损失了。Yolov3的损失函数包括三部分,坐标损失,置信度损失和分类损失。把样本分为了正负样本。
通常我们把不需要负责预测物体的anchorbox称作负样本。负样本不需要计算坐标损失和分类损失,只需要计算置信度损失,而负样本的置信度的目标值是0,就是说我这个框的置信度目标的预测值接近0,就是让算法去学习让这个框不包含物体。
而把需要负责预测物体的anchorbox称作正样本,正样本需要计算坐标损失,置信度损失和分类损失。
正负样本的区分
在yolov3中我们把anchor box样本分为正样本,负样本和忽略样本。anchor box样本标签中置信度为1的anchor box,称为正样本,置信度为0的anchor box,称为负样本。忽略样本则是从负样本中抽取出来的,如何理解呢?
由于yolov3使用了多尺度预测,不同尺度的特征图之间可能会出现重复检测的部分。例如有一个物体狗的gt box在训练时与13*13的feature map中的某个anchor box对应。此时在训练模型的预测值中,恰好26*26的feature map中的某个anchor box与该gtbox的iou达到0.93。而模型中我们让这个anchor box的置信度标签为0,网络学习结果肯定会不理想。所以我们的处理办法是,将这种与gtbox之间 iou较大(大过设定的阈值,如0.5),但又不负责预测物体的anchor box称之为忽略样本,不纳入损失计算。
在负样本中挖掘出忽略样本的步骤如下:
让所有的预测的缩放比(tx,ty,tw,th)与对应的anchorbox 进行解码,得到对应的预测框,我们称为bbox.
让这些bbox与当前预测的图片上的所有gtbox (假设有v个)计算交并比,就可以让每个bbox有对应的v个分数。对每个预测框取v个分数中的最大值,即可以得到best_score,这个best_score就是与这个anchor box交并比最大的那个gt box,他们之间的交并比。
将anchor box置信度标签为0,但best_score>阈值的部分设置为忽略样本,不参与损失计算。
而anchor box置信度标签为0,但best_score<阈值的部分才是参与损失计算的负样本。
2.Yolov3的预测流程
预测流程:
模型输出三种尺度的预测结果,分别为13*13*3*(80+5),26*26*3*(80+5),52*52*3(80+5)。此处以batch*13*13*(3*85)为例进行说明。
将输出的batch*13*13*(3*85),用输出的置信度和类别概率相乘,得到筛选各个bbox框的score值。
对筛选的物体检测框,进行非极大值抑制算法来删掉对同一类物体重合度较高的框,然后选出最后的最优框。
非极大值抑制的计算步骤:
1:设置阈值
2:对每类对象
2.1:选取该类中概率最大的框,然后用这个框与该类中的其他框计算iou,iou大于阈值则剔除,把这个最大的框放入输出列表中,这个最大的框也剔除出去
2.2:在余下的该类框中再选出概率最大的框,重复2.1的操作
2.3:返回步骤2,继续下一类对象
‘捌’ 计算IOU为什么坐标相减后加一
计算IOU坐标相减后加一得原因是算法本身的设定。
IoU是一种测量在特定数据集中检测相应物体准确度的一个标准。IoU是一个简单的测量标准,只要是在输出中得出一个预测范围的任务都可以用IoU来进行测量。IoU分数是对象类别分割问题的标准性能度量。IoU得分是基于计数的度量,而所提出的FCN的输出是表示像素是对象的一部分的可能性的概率值。