Fast R-CNN损失函数

损失函数

候选框回归原理

那么当bouding box regression工作时，再输入Φ时，回归网络分支的输出就是每个Anchor的平移量和变换尺度，显然即可用来修正Anchor位置了。

可以看到其 num_output=36，即经过该卷积输出图像为WxHx36，在caffe blob存储为[1, 4x9, H, W]，这里相当于feature maps每个点都有9个anchors，每个anchors又都有4个用于回归的变换量。

回到图8，VGG输出 50x38x512 的特征，对应设置 50x38xk anchors，而RPN输出：

大小为 50x38x2k 的positive/negative softmax分类特征矩阵
大小为 50x38x4k 的regression坐标回归特征矩阵

恰好满足RPN完成positive/negative分类+bounding box regression坐标回归.

到此为止我们看到了以下的损失：

区域生成网络判断是否对象的损失
区域生成网络的范围调整参数的损失 (仅针对是对象的范围计算)
标签分类网络判断对象所属分类的损失
标签分类网络的范围调整参数的损失 (仅针对是对象，并且可能性最大的分类计算)

这些损失可以通过 + 合并，然后再通过 backward 反馈到各个网络的 CNN 模型与线性模型。需要注意的是，在批量训练的时候因为各个图片的输出范围数量不一样，上面的损失会先根据各张图片计算后再平均。你可能记得上一篇 Fast-RCNN 计算损失的时候需要根据正负样本分别计算，这一篇不需要，Faster-RCNN 的区域生成网络输出的范围比较准确，很少会出现来源特征相同但同时输出 "是对象" 和 "非对象" 结果的情况。此外，如前文所提到的，区域生成网络与标签分类网络应该使用不同的 CNN 模型生成不同的特征，以避免通过损失调整模型参数时发生干扰。

合并结果区域

因为选取区域的算法本来就会返回很多重合的区域，可能会有有好几个区域同时和真实区域重叠率大于一定值 (70%)，导致这几个区域都会被认为是包含对象的区域：

模型经过学习后，针对图片预测得出结果时也有可能返回这样的重合区域，合并这样的区域有几种方法：

使用最左，最右，最上，或者最下的区域
使用第一个区域 (区域选取算法会按出现对象的可能性排序)
结合所有重合的区域 (如果区域调整效果不行，则可能出现结果区域比真实区域大很多的问题)

结构小结

卷积网络提取特征：输入是224*224，经过5个卷积层和2个降采样层（这两个降采样层分别跟在第一和第二个卷积层后面）

ROI池化层：进入RoI Pooling层，该层的输入是conv5层的输出和P个候选区域region proposal。

全连接层：然后再经过两个都是output是4096的全连接层，将特征图转化为特征向量。

分类器和回归器：最后分别经过output个数是21和84的两个全连接层（这两个全连接层是并列的，不是前后关系），前者是分类的输出，代表每个region proposal属于每个类别（21类）的得分，后者是回归的输出，代表每个region proposal的四个坐标。

最后是两个损失层，分类的是softmaxWithLoss，输入是label和分类层输出的得分；回归的是SmoothL1Loss，输入是回归层的输出和target坐标及weight。

5 Faster RCNN训练

Faster R-CNN的训练，是在已经训练好的model（如VGG_CNN_M_1024，VGG，ZF）的基础上继续进行训练。实际中训练过程分为6个步骤：

在已经训练好的model上，训练RPN网络，对应stage1_rpn_train.pt
利用步骤1中训练好的RPN网络，收集proposals，对应rpn_test.pt
第一次训练Fast RCNN网络，对应stage1_fast_rcnn_train.pt
第二训练RPN网络，对应stage2_rpn_train.pt
再次利用步骤4中训练好的RPN网络，收集proposals，对应rpn_test.pt
第二次训练Fast RCNN网络，对应stage2_fast_rcnn_train.pt

可以看到训练过程类似于一种“迭代”的过程，不过只循环了2次。至于只循环了2次的原因是应为作者提到："A similar alternating training can be run for more iterations, but we have observed negligible improvements"，即循环更多次没有提升了。接下来本章以上述6个步骤讲解训练过程。

下面是一张训练过程流程图

，应该更加清晰：

5.1 训练RPN网络

在该步骤中，首先读取RBG提供的预训练好的model（本文使用VGG），开始迭代训练。来看看stage1_rpn_train.pt网络结构，如图19。

图19 stage1_rpn_train.pt（考虑图片大小，Conv Layers中所有的层都画在一起了，如红圈所示，后续图都如此处理）

与检测网络类似的是，依然使用Conv Layers提取feature maps。整个网络使用的Loss如下：

· 在RPN训练阶段，rpn-data（python AnchorTargetLayer）层会按照和test阶段Proposal层完全一样的方式生成Anchors用于训练

· 对于rpn_loss_cls，输入的rpn_cls_scors_reshape和rpn_labels分别对应

与，参数隐含在与

· 的caffe blob的大小中

· 对于rpn_loss_bbox，输入的rpn_bbox_pred和rpn_bbox_targets分别对应

与，rpn_bbox_inside_weigths对应，rpn_bbox_outside_weigths未用到（从smooth_L1_Loss layer代码中可以看到），而

同样隐含在caffe blob大小中

这样，公式与代码就完全对应了。特别需要注意的是，在训练和检测阶段生成和存储anchors的顺序完全一样，这样训练结果才能被用于检测！

Fast R-CNN的创新点和优缺点

每张图片的识别时间大约在 0.05 ~ 0.06 秒之间，相对于 Fast-RCNN 快了接近 10 倍

因为区域生成网络可以参与学习，我们可以定制一个只识别某几种对象的网络，例如图片中有人，狗，车，树，房子的时候，固定的算法可能会把他们全部提取出来，但区域生成网络经过训练可以只提取人所在的区域，其他对象所在的区域都会当作背景处理，这样区域生成网络输出的区域数量将会少很多，而且包含对象的可能性会很高。

Faster-RCNN 另一个比较强大的特点是会分两步来识别区域是否包含对象与调整区域范围，第一步在区域生成网络，第二步在标签分类网络。举一个通俗的例子，如果区域生成网络选取了某个包含了脸的左半部分的区域，它会判断这个区域可能包含对象，并且要求区域范围向右扩大一些，接下来标签分类网络会截取范围扩大之后的区域，这个区域会同时包含脸的左半部分和右半部分，也就是截取出来的特征会包含更多的信息，这时标签分类网络可以使用特征进一步判断这张脸所属的分类，如果范围扩大以后发现这不是一张脸而是别的什么东西那么区域分类网络会输出 "非对象" 的分类排除这个区域，如果判断是脸那么标签分类网络会进一步的调整区域范围，使得范围更精准。而 Fast-RCNN 遇到同样的情况只能根据脸的左半部分对应的特征判断分类，信息量不足可能会导致结果不准确。这种做法使得 Faster-RCNN 的识别精度相对于之前的模型提升了很多。

代码（todo）

参考资料

https://zhuanlan.zhihu.com/p/31426458

FasterRCNN_哔哩哔哩_bilibili

Fast R-CNN损失函数

相关资讯

热文排行

最新新闻

推荐新闻

热搜词