fpn论文模板

3个回答默认排序

默认排序

按时间排序

丁国栋3

已采纳

2021年了，竟然还有人写关于Faster R-CNN的文章？我的原因主要有两点：我们先从全局上了解Faster R-CNN-FPN，然后再关注其中涉及的细节。下面是Faster R-CNN-FPN的网络框架图（或称为tensor流动图）。众所周知，Faster R-CNN-FPN（主要是Faster R-CNN）是个两阶段的对象检测方法，主要由两部分网络组成，RPN和Fast R-CNN。 RPN的作用是以bouding box（后简称为box）的方式预测出图片中对象可能的位置，并过滤掉图片中绝大部分的背景区域，目标是达到尽量召回图像中感兴趣的对象，预测box尽量能够与实际对象的box贴合，并且保证一定的预测精度（Precision）。另外，RPN并不需要指出预测的box中对象具体的类别，RPN预测的box称为RoI（Region of Interest），由于是以box的方式输出，所以后面我们统一将其称为proposal box。 Fast R-CNN则是在FPN预测的proposal box基础上进一步预测box中对象具体的类别，并对proposal box进行微调，使得最终预测的box尽量贴合目标对象。大致的做法是根据RPN预测的proposal box，从原图backbone的feature map上通过RoIPooling或RoIAlign（Faster R-CNN-FPN使用RoIAlign）提取每个proposal box对应区域的feature map，在这些区域feature map上进一步预测box的类别和相对proposal box的偏移量（微调）。另外，RPN和Fast R-CNN共用同一个backbone网络提取图像的feature map，大大减少了推理耗时。从上面的介绍可以看出，RPN和Fast R-CNN的配合作用其实可以理解为一种注意力机制，先大致确定目标在视野中的位置，然后再锁定目标仔细观察，确定目标的类别和更加精确的位置，简单来说就是look twice，相比单阶段的look once，当然是比较耗时的，但也换来了更好的效果（虽然很多单阶段方法号称已经获得相当或好于两阶段的效果）。下面以Faster R-CNN-FPN发展顺序的汇总介绍每个改进的核心思想。在R-CNN中，CNN只被用来作为特征抽取，后接SVM和线性回归模型分别用于分类和box修正回归。在此基础上，Fast R-CNN直接对原输入图进行特征抽取，然后在整张图片的特征图上分别对每个RoI使用RoIPooling提取（后面会介绍RoIPooling的原理）特定长度的特征向量（论文中空降尺寸为7*7），去掉SVM和线性回归模型，在特征向量上直接使用若干FC层进行回归，然后分别使用两个FC分支预测RoI相关的类别和box，从而显著提升速度和预测效果。整体框架图如下：在Fast RCNN的基础上进一步优化，用CNN网络代替Fast R-CNN中的region proposal模块（使用传统Selective Search方法），从而实现了全神经网络的检测方法，在召回和速度上都超过了传统的Selective Search。作者将提供proposal region的网络称为RPN（Region Proposal Network），与检测网络Fast RCNN共享同一backbone，大大缩减了推理速度。 RPN在backbone产生的feature map（图中的conv feature map）之上执行的滑窗操作，每个滑窗范围内的feature map会被映射为多个proposal box（图中的reg layer分支）以及每个box对应是否存在对象的类别信息（图中的cls layer分支）。由于CNN天然就是滑窗操作，所以RPN使用CNN作为窗口内特征的提取器（对应图中的intermediate layer，后面简称为“新增CNN层”），窗口大小，将feature map映射为较低维的feature map以节省计算量（论文中为256）。虽然只使用了的卷积，但是在原图上的有效的感受野还是很大的，感受野大小不等于网络的降采样率，对于VGG网络，降采样率为16，但是感受野为228像素。类似于Fast-RCNN，为了分别得到box和box对应的类别（此处类别只是表示有没有目标，不识别具体类别），CNN操作之后会分为两个子网络，它们的输入都是新增CNN层输出的feature map，一个子网络负责box回归，一个负责类别回归。由于新增CNN层产生的feature map的每个空间位置的特征（包括通道方向，shape为）都被用来预测映射前窗口对应位置是否存在对象（类别）和对象的box，那么使用的CNN进行计算正合适（等效于FC层），这便是RPN的做法。综上所述，所有滑窗位置共享一个新增CNN层和后续的分类和box回归分支网络。下图是RPN在一个窗口位置上执行计算的原理示意。由于滑窗操作是通过正方形的CNN卷积实现的，为了训练网络适应不同长宽比和尺寸的对象，RPN引入了anchor box的概念。每个滑窗位置会预置k个anchor box，每个anchor box的位置便是滑窗的中心点，k个anchor box的长宽比和尺寸不同，作者使用了9种，分别是长宽比为、和，尺寸为 , 和的9种不同组合。分类分支和box回归分支会将新增CNN层输出的feature map的每个空间位置的tensor（shape为）映射为k个box和与之对应的类别，假设每个位置的anchor box数量为k（如前所述，）,则分类分支输出的特征向量为2k(两个类别)，box回归分支输出为4k（4为box信息，box中心点x坐标、box中心点y坐标、box宽w和box高h）。box分支预测的位置（x,y,w,h）都是相对anchor box的偏移量。从功能上来看，anchor box的作用有点类似于提供给Fast RCNN的propsal box的作用，也表示目标可能出现的位置box，但是anchor box是均匀采样的，而proposal box是通过特征抽取（或包含训练）回归得到的。由此可以看出，anchor box与预测的box是一一对应的。从后文将会了解到，通过anchor box与gt box的IoU的关系，可以确定每个预测box的正负样本类别。通过监督的方式让特定的box负责特定位置、特定尺寸和特定长宽比的对象，模型就学会了拟合不同尺寸和大小的对象。另外，由于预测的box是相对anchor box的偏移量，而anchor box是均匀分布在feature map上的，只有距离和尺寸与gt box接近（IoU较大）的anchor box对应的预测box才会与gt box计算损失，这大大简化了训练，不然会有大量的预测box与gt box计算损失，尤其是在训练初始阶段，当一切都是瞎猜的时候。在Faster RCNN基础上，将backbone替换为ResNet50或ResNet101，涉及部分细节的改动，我们放在本文的细节部分进行描述。在Faster RCNN-ResNet基础上，引入FPN（特征金字塔网络）模块，利用CNN网络天然的特征金字塔特点，模拟图像金字塔功能，使得RPN和Fast RCNN可以在多个尺度级别（scale level）的feature map上分别预测不同尺寸的对象，大大提高了Faster RCNN的检测能力。相比图像金字塔大大节省了推理时间。原理如下图所示：从上图中可以看出，FPN并不是简单地使用backbone的多个CNN层输出的feature map进行box回归和分类，而是将不同层的feature map进行了top-down和lateral connection形式的融合后使用。这样便将CNN网络前向传播（bottom-up）产生的深层语义低分辨率特征与浅层的浅语义高分辨率的特征进行融合，从而弥补低层特征语义抽象不足的问题，类似增加上下文信息。其中，top-down过程只是简单地使用最近邻插值将低分辨率的feature map上采样到即将与之融合的下层feature map相同的尺寸（尺寸上采样到2倍），lateral connection则是先将低层的feature map使用的卷积缩放为即将与之融合的上层feature map相同的通道数（减少计算量），然后执行像素级相加。融合后的feature map不仅会用于预测，还会继续沿着top-down方向向下传播用于下层的特征融合，直到最后一层。 mask R-CNN提出的RoI Align缓解了RoIPooling的缺陷，能够显著提升小目标物体的检测能力。网上介绍RoIPooling和RoIAlign的文章很多，此处不再赘述，推荐阅读个人觉得比较好的两篇博客： RoIPooling 和 RoIAlign 。此处稍微啰嗦下个人对RoIPooling的思考：为什么RoIPooling不使用自适应的池化操作，即根据输入的feature map的尺寸和希望输出的feature map尺寸，自动调整池化窗口的大小和步长以计算想要尺寸的feature map，类似于自适应池化操作，而不是将输入的feature map划分成均匀的小区域（bins，论文中划分为个bins），然后每个小区域中分别计算MaxPooling。不管计算上是否高效，至少这种做法在输入的feature map尺寸（比如）小于期望的输出feature map尺寸（比如）时会失效，因为在3*3的feature map上如果不使用padding的话是无法得到的特征的，而使用padding又是很低效的操作，因为要扩展局部feature map的尺寸，而使用划分bins的方法，即使输出的feature map尺寸远小于要输出的feature map尺寸，也仅仅是在同一位置采样多次而已。本人之前介绍YOLOv3的文章也介绍过anchor box的作用，再加上本文节中的介绍应该比较全面了，不再赘述。此处的绝大部分细节来自论文，论文中未提及的部分，主要参考了mmdetection中的实现。整个模型的网络结构可以划分为四个部分，分别为backbone、FPN、RPN head和Fast RCNN head。：原图短边被resize到800像素，这里值得注意的是，如此resize后一个batch内的每张图片的大小很有可能并不一致，所以还无法合并为一个输入矩阵，普遍的做法是将batch内的每张图片的左上角对齐，然后计算resize后batch内所有图片的最大宽和高，最后按照最大宽或高分别对每张图片的宽或高进行0值padding；输出为4个不同尺寸的feature map（C2、C3、C4、C5）。 : ResNet backbone产生的4个不同尺寸的feature map（C2、C3、C4、C5）作为输入，输出5个不同尺寸的feature map（P2、P3、P4、P5、P6），P6是对P5进行2倍降采样得到，每个feature map的通道数为固定的256；使用P6的原因是为了预测更大尺寸的对象。：输入为FPN产生的feature map（P2、P3、P4、P5、P6）；由于RPN是在5个输入feature map上进行独立的预测，则每个feature map都会输出 proposal box，因此不可能将所有的proposal box都提供给Fast R-CNN，这里的做法是对每个feature map上产生的proposal box按类别概率进行排序（每个feature map上的proposal box独立进行），然后选择前k个proposal box， 5个feature map一共会产生个proposal box，训练时，推理时。最后，将所有的个proposal box合并后统一进行NMS（IoU threshold=）去掉冗余的box，最后选择前m个输出给Fast R-CNN，训练和测试时m都取1000。训练时将gt box通过下面的公式转换为相对anchor box的偏移值，与网络的预测计算loss，至于将每个gt与具体的哪个anchor box计算偏移，则需要根据节中的正负样本方法来确定。测试时将预测的box通过该公式中的逆运算计算出当前box相对原图的位置和大小，， , ，指相对全图的box中心点坐标以及宽和高，， , ，指每个anchor相对全图的box中心点坐标以及宽和高。由此可以看出，box回归分支直接预测的便是相对anchor的偏移值，即公式中的、、和。以上提到的2000和1000是作为Fast R-CNN的输入proposal box，在训练时参与RPN loss计算的anchor boxs数量为256个，正负样本数量为，正样本不足128的用负样本补足。这里的256是从所有feature map中的anchor box中选择的，并非每个feature map都独立取得256个正负样本。这也是合理的，因为每个gt box由于尺寸的原因，几乎不可能与所有feature map上的anchor box的IoU都大于一定的阈值（原因参考节）。注意选择前并未进行NMS处理，而是直接根据节中确定正负样本的方式确定每个预测box正负类别，然后分别在正样本中随机选择128个正样本，在负样本中随机选择128个负样本。 R-CNN：输入为FPN产生的前4个feature map和RPN输出的proposal box，4个feature map为P2、P3、P4、P5，与backbone对应，不使用P6。那么，如何确定在哪个feature map上执行每个proposal box对应的RoIAlign操作并得到大大小的feature map呢？论文中的做法是通过下面的公式将特定尺寸的proposal box与FPN产生的4个feature map中尺寸最适合的对应起来，即让感受野更接近对象尺寸的feature map预测该对象，其中224为backbone在ImageNet上预训练的尺寸，w和h为proposal box的长和宽，k表示适合尺寸为w和h的propsal box的feature map的位置，即4个feature map为P2、P3、P4、P5的下标，k_0为proposal box大致为224*224时对应feature map位置值（），表示proposal box大致为时在P4上执行RoIAlign，小于时，在P2或P3上执行，大于则在P5上。网络都会针对每个RoI会输出一个类别概率分布（包括背景类别）和一个相对RoI box的长度为4的box偏移向量。概率分支由softmax激活函数得到。与RPN的类似，训练时，如节loss计算中所述，会将gt box通过下面的公式转换为相对proposal box（前提是该RoI是正样本）的偏移量，然后使用loss计算公式直接与预测的相对偏移量进行loss计算；测试时，会通过下列公式的逆运算将偏移值换算回相对原图的位置box，然后使用NMS去掉冗余的box，最终输出。训练时，通过中的方式确定每个proposal box属于正样本或负样本后，随机选择512个样本，其中正负比例为1:3进行loss计算，正样本不足的由负样本补足。在RPN中，由于每个feature map的每个滑窗位置上的张量（维张量，C为feature map的通道数）会被用来预测k个box和每个box对应的类别概率，那么具体哪个box才能参与gt box的损失计算（包括类别和box回归损失）？这便需要在所有预测的box中确定正负样本，因为一个anchor对应一个预测的box和类别，那么确定预测的box是正例还是负例等价于确定anchor box的是正例还是反例。为了便于训练，RPN中使用双IoU阈值的方式确定正负样本，与gt box的IoU为最大或者大于的anchor box被设置为正样本，这会导致一个gt box与多个预测box计算损失，即允许多个box预测同一对象，与gt box的IoU小于的anchor box被设置为负样本，其余的忽略掉，即不参与loss计算。在此基础上，如节中所述，会对正负样本进行随机采样，总数为256，其他不参与损失函数计算。与gt box的IoU大于的proposal box作为正样本，注意，是将proposal box与gt box计算IoU，Fast-RCNN中的proposal box的作用与anchor box有些类似，即确定正负样本和预测的box 都是针对它们的偏移值，其余IoU在之间的作为负样本，低于的作为难例挖掘时的启发式样本（mmdetection中的做法是单阈值方式，与gt box的IoU大于的proposal box作为正样本，小于的都是负样本）。 Faster R-CNN中是以分步的方式联合训练RPN和Fast R-CNN，大致的过程为：但在mmdetection中，已经将RPN和Fast R-CNN的loss进行权重加和，从而进行联合训练，训练流程简化很多，且能够达到相同的效果。确定了每个预测box或anchor box的正负类别后，便可以计算损失函数了，类似于Fast RCNN的做法，只有正样本的box才会参与box损失计算，损失函数如下：为类别损失为类别损失函数，使用交叉熵损失，为box回归损失，使用smooth L1损失，论文中平衡因子lambda为10。表示第i个anchor box对应的gt 类别（背景为0，对象为1），为gt box相对anchor box的偏移量（如果该anchor box被确定为正样本），通过下面的公式计算得到，即表示只有，即为正样本时才会计算box的损失。 Fast R-CNN的loss类似于RPN，只有proposal box为非背景类别（正样本）时才计算box损失，为类别损失，为box损失，表示proposal box的，时表示背景（通过的方式确定proposal box的类别）。为平衡因子，作者所有实验中。为了防止box回归的L2 loss放大噪声（异常loss）从而影响训练，作者将L2 loss修改为 loss，当box尺寸的差异较大时使用L1 loss，抑制异常值对梯度的贡献。其中v是通过下面的公式将gt box（ , , , ）转换得到，其中，（ , , , ）为proposal box的在原图中的中心点坐标和宽与高。在Faster R-CNN和Faster R-CNN-ResNet中，由于RPN只是在单尺寸的feature map上进行滑窗，为了缓解多尺寸的问题，每个滑窗位置会设计多个尺寸的anchor，但是在Faster R-CNN-FPN中使用了FPN，则天然就具有了适应对象多尺寸的问题，因此不用再为每个滑窗设计多个尺寸的anchor。即在Faster RCNN-FPN中，为每种尺寸feature map上的滑窗只设计了单一尺寸多种长宽比的anchor，长宽比有、和，不同feature map上anchor的尺寸为： , , , 和，依次对应P2、P3、P4、P5和P6。 COCO上的训练细节：RPN的weight decay为，SGD的，初始学习率为，学习率调整使用step decay方式。

115 评论 1小时前发布

真巧穆斯林

目标检测论文整理最近开始看一些object detection的文章，顺便整理一下思路。排版比较乱，而且几乎所有图片都是应用的博客或论文，如有侵权请联系我。文章阅读路线参考目前已完成的文章如下，后续还会继续补充（其中加粗的为精读文章）：RCNNOverfeatMR-CNNSPPNetFast RCNNA Fast RCNNFaster RCNNFPNR-FCNMask RCNNYOLOYOLO 9000YOLO v3SSDDSSDR-SSDRetinaNet（focal loss）DSODCascade R-CNN（待续）吐槽一下，博客园的markdown竟然没有补齐功能，我还是先在本地补全再传上来吧。。。RCNN之前的故事Histogram of Gradient (HOG) 特征在深度学习应用之前，图像的特征是人工定义的具有鲁棒性的特征，如SIFT，HOG等，下面简要介绍一下HOG。8x8像素框内计算方向梯度直方图：HOG Pyramid特征金字塔，对于不同大小的物体进行适应，设计尺度不变性特征HOG特征 -> SVM分类DPM模型 Deformable Part Model加组件组合的HOG特征，组件间计算弹性得分，优化可变形参数如果没有弹性距离，就是BoW (Bag of Word)模型，问题很大，位置全部丢失:n个组件的DPM计算流程:Selective Search 思想过分割后基于颜色纹理等相似度合并,然后，过分割、分层合并、建议区域排序基于Selective Search + DPM/HoG + SVM的物体识别此时的框架就是RCNN的雏形，因为DPM就是基本由RBG和他导师主导，所以大神就是大神。AlexNet的图像分类（深度学习登场）2012年AlexNet赢得LSVRC的ImageNet分类竞赛。深度CNN结构用来图像特征提取。bounding-box regression 框回归BBR 在DPM时代就和SVM分类结合，一般直接使用线性回归，或者和SVR结合RCNN: Rich feature hierarchies for accurate object detection and semantic segmentationRCNN作为深度学习用于目标检测的开山之作，可以看出是基于Selective Search + DPM/HoG + SVM框架，只不过将是将手工特征转变为CNN提取特征，本文主要贡献如下：CNN用于object detection解决数据集不足的问题主要流程如下：regional preposals（selective research）CNN feature extractionSVM ClassificationNMSbounding-box regression（BBR）为啥能work？优秀的目标检测框架，region proposal 和 regression offset降低了目标检测的难度，强大的CNN特征提取器，代替传统的已经到瓶颈的手工特征迁移训练降低了对数据集的要求MR-CNN：Object detection via a multi-region & semantic segmentation-aware CNN modelMulti-Region的提出，开始对Box进一步做文章，相当于对Box进一步做增强，希望改进增强后的效果，主要改善了部分重叠交叉的情况。特征拼接后使得空间变大，再使用SVM处理，效果和R-CNN基本类似.OverFeat:Integrated Recognition, Localization and Detection using Convolutional Networks不得不说虽然OverFeat在但是比赛成绩不是太好，但是它的思想还是很有启发性的。OverFeat直接抛弃了Selective Search，采用CNN上slide windows来进行框推荐，并且把Bounding box Regression整合一起使用全连接层搞定，解决了后面一端的问题（取代了SVM分类器和BBR线性回归器），这个思想影响了后来的Fast RCNN。是第一个End to End 的目标检测模型，模型虽然简陋，但是可以验证网络强大的拟合能力注意整合目标检测的各项功能（分类，回归）。亮点：先用CNN得到feature map再做slide windows推荐区域，避免了特征重复计算。设计了End to End模型，方便优化和加快检测速度设计全卷积网络，并进行多尺度图像训练maxpool offset（没有Fast RCNN的ROI Pooling自然）为啥能work？可以看出OverFeat将不同的两个问题物体分类和位置回归采用了两个分支网络，共用前面的CNN特征表述，而CNN提取的特征正如OverFeat所言，是一种类似于SIFT，HOG等人工描述子的一种稳定的描述子（底层抽象），可以用于构建不同的任务（高层表述），也就是模型为什么能work的原因。SPPNetR-CNN和Overfeat都存在部分多尺度，重叠效果的问题。某种意义上，应对了HoG特征，这样对于物体来说类似BoW模型，我们知道DPM里面，是带有组件空间分布的弹性得分的，另外也有HoG Pyramid的思想。如何把Pyramid思想和空间限制得分加入改善多尺度和重叠的效果呢？ MR-CNN里面尝试了区域增强， Overfeat里面尝试了多尺度输入。但是效果都一般。这里我们介绍另外一个技术Spatial Pyramid Matching, SPM，是采用了空间尺度金字塔的特点。和R-CNN相比做到了先特征后区域，和Overfeat相比自带Multi-Scale。SPP pooling layer 的优势：解决了卷积层到全连接层需要固定图片大小的问题，方便多尺度训练。能够对于任意大小的输入产生固定的输出，这样使得一幅图片的多个region proposal提取一次特征成为可能。进一步强调了CNN特征计算前移，区域处理后移的思想，极大节省计算量也能看出文章还是强调用CNN做特征的提取，还是用的BBR和SVM完成回归和分类的问题Fast RCNN可以看出Fast RCNN结合了OverFeat和Sppnet的实现，打通了高层表述和底层特征之间的联系主要流程：任意size图片输入CNN网络，经过若干卷积层与池化层，得到特征图；在任意size图片上采用selective search算法提取约2k个建议框；根据原图中建议框到特征图映射关系，在特征图中找到每个建议框对应的特征框【深度和特征图一致】，并在RoI池化层中将每个特征框池化到H×W【VGG-16网络是7×7】的size；固定H×W【VGG-16网络是7×7】大小的特征框经过全连接层得到固定大小的特征向量；将上一步所得特征向量经由各自的全连接层【由SVD分解实现(全连接层加速)】，分别得到两个输出向量：一个是softmax的分类得分，一个是Bounding-box窗口回归；利用窗口得分分别对每一类物体进行非极大值抑制剔除重叠建议框其中ROI POOL层是将每一个候选框映射到feature map上得到的特征框经池化到固定的大小，其次用了SVD近似求解实现全连接层加速。这里需要注意的一点，作者在文中说道即使进行多尺度训练，map只有微小的提升，scale对Fast RCNN的影响并不是很大，反而在测试时需要构建图像金字塔使得检测效率降低。这也为下一步的多尺度改进埋下了伏笔。为啥能更好的work？也是结合了OverFeat的和SPPnet的work，同时规范了正负样本的判定（之前由于SVM和CNN对区域样本的阈值划分不同而无法统一网络，当然这只是其中的一个原因。更多的估计是作者当时没想到），将网络的特征抽取和分类回归统一到了一个网络中。A Fast RCNN： Hard Positive Generation via Adversary for Object Detection这篇论文是对,CMU与rbg的online hard example mining(OHEM)改进，hard example mining是一个针对目标检测的难例挖掘的过程，这是一个更充分利用数据集的过程。实际上在RCNN训练SVM时就已经用到，但是OHEM强调的是online，即如何在训练过程中选择样本。同期还有S-OHEM的改进。而随着但是GAN的火热，A-Fast-RCNN尝试生成hard example（使用对抗网络生成有遮挡和有形变的两种特征，分别对应网络ASDN和ASTN）结论如下：ASTN 和随机抖动（random jittering）做了对比，发现使用AlexNet，mAP分别是和，使用VGG16，mAP分别是和，ASTN 的表现都比比随机抖动效果好。作者又和OHEM对比，在VOC 2007数据集上，本文方法略好（ vs. ），而在VOC 2012数据集上，OHEM更好（ vs. ）。gan用于目标检测还没有很好的idea，这篇论文相当于抛砖引玉了。同时需要注意的一个问题，网络对于比较多的遮挡和形变情况识别情况更好；但是对于正常目标的特征抽象能力下降，所以有时候创造难例也要注意样本的数量。下面是一些由于遮挡原因造成的误判。Faster RCNN：Towards Real-Time Object Detection with Region Proposal Networks这篇文章标志着two-stage目标检测的相对成熟，其主要改进是对候选区域的改进，将候选区域推荐整合进了网络中。结合后面的一系列文章，可以马后炮一下它的缺点：虽然Faster RCNN已经共享了绝大部分卷积层运算，但是RoI之后还有部分ConvNet的计算，有没有可能把ROI之上的计算进一步前移？请看R-FCNFaster RCNN还是没有很好的解决多尺度问题，如何解决，请看FPNYOLO：You Only Look Once作者的论文简直是一股论文界的泥石流，作者本身是一个喜欢粉红小马的大叔，萌萌哒。实际上YOLO一直发展到v3都是简单粗暴的目标检测方法，虽然学术界模型繁杂多样，但是在实际应用工业应用上YOLO绝对是一个首选的推荐。YOLO v1版本现在看来真是简单粗暴，也印证了网络抽象的强大之处。可以看出作者没有受到太多前辈的影响，将对象检测重新定义为单个回归问题，直接从图像像素到边界框坐标和类概率（当然这也是一个缺少坐标约束也是一个缺点）。YOLO的明显缺点，如多尺度问题，密集物体，检测框耦合，直接回归坐标等在yolo 9000中也做了比较好的改进。SSD：Single Shot MultiBox DetectorSSD作为one stage的代表模型之一，省去了判断推荐候选区域的步骤(实际上可以认为one-stage就是以feature map cell来抽象代替ROI Pooling功能），虽然SSD和Faster RCNN在Anchor box上一脉相承，但是Faster RCNN却还是有一个推荐候选区域（含有物体的区域）的监督部分（注意后面其实也是整合到了最终Loss中），因此one-stage优势是更快，而含有区域推荐的two-stage目前是更加准确一些。（更看好one-stage，其实区域推荐不太符合视觉系统，但是可以简化目标检测问题），主要贡献：用多尺度feature map来预测，也生成了更多的default box检测框对每一类对象产生分数（低耦合，对比yolo）缺点：底层feature map高级语义不足（FPN)正负样本影响 (focal loss)feature map抽象分类和回归任务只用了两个卷积核抽象性不足（DSSD）为啥能更好的工作？SSD的出现对多尺度目标检测有了突破性进展，利用卷积层的天然金字塔形状，设定roi scale让底层学习小物体识别，顶层学习大物体识别FPN：feature pyramid networksSSD网络引入了多尺度feature map，效果显著。那Faster RCNN自然也不能落后，如何在Faster RCNN中引入多尺度呢？自然有FPN结构同时FPN也指出了SSD因为底层语义不足导致无法作为目标检测的feature map注意原图的候选框在Faster RCNN中只固定映射到同一个ROI Pooling中，而现在如果某个anchor和一个给定的ground truth有最高的IOU或者和任意一个Ground truth的IOU都大于，则是正样本。如果一个anchor和任意一个ground truth的IOU都小于，则为负样本。本文算法在小物体检测上的提升是比较明显的，另外作者强调这些实验并没有采用其他的提升方法（比如增加数据集，迭代回归，hard negative mining），因此能达到这样的结果实属不易。DSSD：Deconvolutional Single Shot Detector一个SSD上移植FPN的典型例子，作者主要有一下改动：将FPN的Upsampling变成deconv复杂了高层表述分支（分类，回归）网络的复杂度R-SSD：Enhancement of SSD by concatenating feature maps for object detection本文着重讨论了不同特征图之间的融合对SSD的影响（水论文三大法宝），这篇论文创新点不是太多，就不说了DSOD： Learning Deeply Supervised Object Detectors from Scratch这篇文章的亮点：提出来了不需要预训练的网络模型DSOD实际上是densenet思想+SSD，只不过并不是在base model中采用densenet，而是密集连接提取default dox的层，这样有一个好处：通过更少的连接路径，loss能够更直接的监督前面基础层的优化，这实际上是DSOD能够直接训练也能取得很好效果的最主要原因，另外，SSD和Faster RCNN直接训练无法取得很好的效果果然还是因为网络太深（Loss监督不到）或者网络太复杂。Dense Prediction Structure 也是参考的densenetstem能保留更多的信息，好吧，这也行，但是对效果还是有提升的。YOLO 9000：Better, Faster, Stronger很喜欢这个作者的论文风格，要是大家都这么写也会少一点套路，多一点真诚。。。。文章针对yolo做了较多的实验和改进，简单粗暴的列出每项改进提升的map。这个建议详细的看论文。下面列举几个亮点：如何用结合分类的数据集训练检测的网络来获得更好的鲁棒性将全连接层改为卷积层并结合了细粒度信息（passthrough layer）Multi-Scale TraningDimension Clustersdarknet-19更少的参数Direct locaion prediction对offset进行约束R-FCN：Object Detection via Region-based Fully Convolutional Networks本文提出了一个问题，base CNN网络是为分类而设计的（pooling 实际上是反应了位置的不变性，我一张人脸图片只要存在鼻子，两只眼睛，分类网络就认为它是人脸，这也就是Geoffrey Hinton 在Capsule中吐槽卷积的缺陷），而目标检测则要求对目标的平移做出准确响应。Faster RCNN是通过ROI pooling让其网络学习位置可变得能力的，再次之前的base CNN还是分类的结构，之前讲过R-FCN将Faster RCNN ROI提取出来的部分的卷积计算共享了，那共享的分类和回归功能的卷积一定在划分ROI之前，那么问题来了，如何设计让卷积对位置敏感？主要贡献：将用来回归位置和类别的卷积前置共享计算，提高了速度。巧妙设计score map（feature map）的意义（感觉设计思想和yolo v1最后的全连接层一样），让其何以获得位置信息，之后在经过ROI pooling和vote得到结果为啥能work？实际上rfcn的feature map设计表达目标检测问题的方式更加抽象（ROI pool前的feature map中每一个cell的channel代表定义都很明确），loss在监督该层时更能通过论文中关于ROI pool和vote设计，在不同的channel上获得高的响应，这种设计方式可能更好优化（这个是需要大量的实验得出的结论），至于前面的resnet-base 自然是抽象监督，我们本身是无法理解的，只是作为fintuning。实际上fpn的loss监督也是非常浅和明确的，感觉这种可以理解的优化模块设计比较能work。Focal Loss: Focal Loss for Dense Object Detection这篇文章实际上提供了另外一个角度，之前一直认为Single stage detector结果不够好的原因是使用的feature不够准确（使用一个位置上的feature），所以需要Roi Pooling这样的feature aggregation办法得到更准确的表示。但是这篇文章基本否认了这个观点，提出Single stage detector不好的原因完全在于：极度不平衡的正负样本比例: anchor近似于sliding window的方式会使正负样本接近1000：1，而且绝大部分负样本都是easy example，这就导致下面一个问题：gradient被easy example dominant的问题：往往这些easy example虽然loss很低，但由于数量众多，对于loss依旧有很大贡献，从而导致收敛到不够好的一个结果。所以作者的解决方案也很直接：直接按照loss decay掉那些easy example的权重，这样使训练更加bias到更有意义的样本中去。很直接地，如下图所示:实验中作者比较了已有的各种样本选择方式：按照class比例加权重：最常用处理类别不平衡问题的方式OHEM：只保留loss最高的那些样本，完全忽略掉简单样本OHEM+按class比例sample：在前者基础上，再保证正负样本的比例（1：3）Focal loss各种吊打这三种方式，coco上AP的提升都在3个点左右，非常显著。值得注意的是，3的结果比2要更差，其实这也表明，其实正负样本不平衡不是最核心的因素，而是由这个因素导出的easy example dominant的问题。RetinaNet 结构如下实际上就是SSD+FPN的改进版

351 评论 10小时前发布

小白黄条条猫

论文里的目标值就是你要围绕什么目标写论文啊，要达到什么水平

81 评论 11小时前发布

fpn论文模板

3个回答 默认排序 默认排序 按时间排序

相关问答

期刊论文

向你推荐

热门问题

3个回答默认排序

默认排序

按时间排序