传统目标检测最新论文

发布时间：2023-12-08 19:38:26

传统目标检测最新论文

论文: EfficientDet: Scalable and Efficient Object Detection

目前目标检测领域，高精度的模型通常需要很大的参数量和计算量，而轻量级的网络则一般都会牺牲精度。因此，论文希望建立一个可伸缩的高精度且高性能的检测框架。论文基于one-stage的检测网络范式，进行了多种主干网络、特征融合和class/box预测的结构尝试，主要面临两个挑战:

FPN是目前最广泛的多尺度融合方法，最近也有PANet和NAS-FPN一类跨尺度特征融合方法。对于融合不同的特征，最初的方法都只是简单地直接相加，然而由于不同的特征是不同的分辨率，对融合输出特征的共享应该是不相等的。为了解决这一问题，论文提出简单但高效加权的bi-directional feature pyramid network(BiFPN)，该方法使用可学习的权重来学习不同特征的重要性，同时反复地进行top-down和bottom-up的多尺度融合

论文认为除了缩放主干网络和输入图片的分辨率，特征网络(feature network)和box/class预测网络的缩放对准确率和性能也是很重要的。作者借鉴EfficientNet，提出针对检测网络的混合缩放方法(compound scaling method)，同时对主干网络，特征网络和box/class预测网络的分辨率/深度/宽度进行缩放

最后，论文将EfficientNet作为主干，结合BiFPN和混合缩放，提出新的检测系列EfficientDet，精度高且轻量，COCO上的结果如图1，论文的贡献有以下3点：

定义多尺寸特征，论文的目标是找到变化函数来高效融合不同的特征，输出新特征。具体地，图2a展示了top-down FPN网络结构，一般FPN只有一层，这里应该为了对比写了repeat形式。FPN获取3-7层的输入，代表一个分辨率为的特征层

top-down FPN操作如上所示，为上采用或下采样来对齐分辨率，通常是特征处理的卷积操作

top-down FPN受限于单向的信息流，为了解决这一问题，PANet(图2b)增加了额外的bottom-up路径的融合网络，NAS_FPN(图2c)使用神经架构搜索来获取更好的跨尺度特征网络的拓扑结构，但需要大量资源进行搜索。其中准确率最高的是PANet，但是其需要太多的参数和计算量，为了提高性能，论文对跨尺寸连接做了几点改进：

大多的特征融合方法都将输入特征平等对待，而论文观察到不同分辨率的输入对融合输出的特征的贡献应该是不同的。为了解决这一问题，论文提出在融合时对输入特征添加额外的权重预测，主要有以下方法：

，是可学习的权重，可以是标量(per-feature)，也可以是向量(per-channel)，或者是多维tensor(per-pixel)。论文发现标量形式已经足够提高准确率，且不增加计算量，但是由于标量是无限制的，容易造成训练不稳定，因此，要对其进行归一化限制

，利用softmax来归一化所有的权重，但softmax操作会导致GPU性能的下降，后面会详细说明

，Relu保证，保证数值稳定。这样，归一化的权重也落在，由于没有softmax操作，效率更高，大约加速30%

BiFPN集合了双向跨尺寸的连接和快速归一化融合，level 6的融合操作如上，为top-down路径的中间特征，是bottom-up路径的输出特征，其它层的特征也是类似的构造方法。为了进一步提高效率，论文特征融合时采用depthwise spearable convolution，并在每个卷积后面添加batch normalization和activation

EfficientDet的结构如图3所示，基于one-stage检测器的范式，将ImageNet-pretrained的EfficientNet作为主干，BiFPN将主干的3-7层特征作为输入，然后重复进行top-down和bottom-up的双向特征融合，所有层共享class和box网络

之前检测算法的缩放都是针对单一维度的，从EfficientNet得到启发，论文提出检测网络的新混合缩放方法，该方法使用混合因子来同时缩放主干网络的宽度和深度、BiFPN网络、class/box网络和分辨率。由于缩放的维度过多，EfficientNet使用的网格搜索效率太慢，论文改用heuristic-based的缩放方法来同时缩放网络的所有维度

EfficientDet重复使用EfficientNet的宽度和深度因子，EfficinetNet-B0至EfficientNet-B6

论文以指数形式来缩放BiFPN宽度 (#channels)，而以线性形式增加深度 (#layers)，因为深度需要限制在较小的数字

box/class预测网络的宽度固定与BiFPN的宽度一致，而用公式2线性增加深度(#layers)

因为BiFPN使用3-7层的特征，因此输入图片的分辨率必需能被整除，所以使用公式3线性增加分辨率

结合公式1-3和不同的，论文提出EfficientDet-D0到EfficientDet-D6，具体参数如Table 1，EfficientDet-D7没有使用，而是在D6的基础上增大输入分辨率

模型训练使用momentum=和weight decay=4e-5的SGD优化器，在初始的5%warm up阶段，学习率线性从0增加到，之后使用余弦衰减规律(cosine decay rule)下降，每个卷积后面都添加Batch normalization，batch norm decay=，epsilon=1e-4，梯度使用指数滑动平均，decay=，采用和的focal loss，bbox的长宽比为，32块GPU，batch size=128，D0-D4采用RetinaNet的预处理方法，D5-D7采用NAS-FPN的增强方法

Table 2展示了EfficientDet与其它算法的对比结果，EfficientDet准确率更高且性能更好。在低准确率区域，Efficient-D0跟YOLOv3的相同准确率但是只用了1/28的计算量。而与RetianaNet和Mask-RCNN对比，相同的准确率只使用了1/8参数和1/25的计算量。在高准确率区域，EfficientDet-D7达到了，比NAS-FPN少使用4x参数量和计算量，而anchor也仅使用3x3，非9x9

论文在实际的机器上对模型的推理速度进行了对比，结果如图4所示，EfficientDet在GPU和CPU上分别有和加速

论文对主干网络和BiFPN的具体贡献进行了实验对比，结果表明主干网络和BiFPN都是很重要的。这里要注意的是，第一个模型应该是RetinaNet-R50(640)，第二和第三个模型应该是896输入，所以准确率的提升有一部分是这个原因。另外使用BiFPN后模型精简了很多，主要得益于channel的降低，FPN的channel都是256和512的，而BiFPN只使用160维，这里应该没有repeat

Table 4展示了Figure 2中同一网络使用不同跨尺寸连接的准确率和复杂度，BiFPN在准确率和复杂度上都是相当不错的

Table 5展示了不同model size下两种加权方法的对比，在精度损失不大的情况下，论文提出的fast normalized fusion能提升26%-31%的速度

figure 5展示了两种方法在训练时的权重变化过程，fast normalizaed fusion的变化过程与softmax方法十分相似。另外，可以看到权重的变化十分快速，这证明不同的特征的确贡献是不同的，

论文对比了混合缩放方法与其它方法，尽管开始的时候相差不多，但是随着模型的增大，混合精度的作用越来越明显

论文提出BiFPN这一轻量级的跨尺寸FPN以及定制的检测版混合缩放方法，基于这些优化，推出了EfficientDet系列算法，既保持高精度也保持了高性能，EfficientDet-D7达到了SOTA。整体而言，论文的idea基于之前的EfficientNet，创新点可能没有之前那么惊艳，但是从实验来看，论文推出的新检测框架十分实用，期待作者的开源

论文:A Dual Weighting Label Assignment Scheme for Object Detection

[图片上传失败...(image-26dcc3-25)]

Anchor作为目标检测器训练的基础单元，需要被赋予正确的分类标签和回归标签，这样的标签指定(LA, label assignment)过程也可认为是损失权重指定过程。对于单个anchor的cls损失计算，可以统一地表示为：

[图片上传失败...(image-2e24aa-25)]

和为正向权重和反向权重，用于控制训练的方向。基于这个设计，可以将LA方法分为两个大类：

[图片上传失败...(image-372b16-25)]

为了给检测器提供更多的监督信息，论文提出了新的LA方法DW(dual weighting)，从不同的角度单独计算和并让其能够互补。此外，为了给权重计算函数提供更准确的reg分数，论文还提出了新的bbox精调操作，预测目标的边界位置并根据对应的特征产生更准确的精调信息。

由于NMS的存在，检测器应该预测一致的bbox，既有高分类分数也有准确的位置定位。但如果在训练时平等地对待所有的训练样本，而cls分数越高的预测结果的reg位置不一定越准确，这往往会导致cls head与reg head之间就会存在不一致性。为此，Soft LA通过加权损失来更柔和地对待训练样本，加强cls head与reg head的一致性。基于Soft LA，anchor的损失可以表示为：

[图片上传失败...(image-51f384-25)]

其中为预测的cls分数。为一致性更高的预测结果分配更大的和，能够使得网络专注于学习高质量的预测结果，减轻cls head与reg head的不一致问题。

[图片上传失败...(image-98093b-25)]

当前的方法直接将设置为，主要关注如何定义一致性以及如何将其集成到损失权重中。表1总结了一些方法对和的计算公式，这些方法先定义用于度量一致性的指标，随后将作为不一致性的度量指标，最后添加缩放因子将指标集成到损失权重中。上述方法的和都是高度相关的，而论文认为pos和neg权重应该以prediction-aware的方式单独设置，具体如下：

通过上述定义，对于pos权重相似的这种模棱两可的anchor，就可以根据不同的neg权重得到更细粒度的监督信息。

[图片上传失败...(image-535eff-25)]

DW方法的整体流程如图2所示，先根据中心点距离来为每个GT构造候选正样本集，其余的anchor为候选负样本。由于负样本的统计信息十分混乱，所以不参与权重函数的计算。候选正样本会被赋予三个权重、以及，用于更有效地监督训练。

pos权重需要反映预测结果对检测性能的重要性，论文从目标检测的验证指标来分析影响重要性的因素。在测试时，通常会根据cls分数或cls分数与IoU的结合对单分类的预测结果进行排序，从前往后依次判断。正确的预测需满足以下两点：

上述条件可认为是选择高ranking分数以及高IoU的预测结果，也意味着满足这两个条件的预测结果有更大概率在测试阶段被选择。从这个角度来看，pos权重就应该与IoU和ranking分数正相关。首先定义一致性指标，用于度量两个条件的对齐程度：

[图片上传失败...(image-aac9d-25)]

为了让不同anchor的pos权重的方差更大，添加指数调节因子：

[图片上传失败...(image-3a2156-25)]

最终，各anchor的pos权重会根据对应GT的候选anchor的pos权重之和进行归一化。

pos权重虽然可以使得一致的anchor同时具有高cls分数和高IoU，但无法区分不一致anchor的重要程度。如前面图1所示，anchor D定位校准但分类分数较低，而anchor B恰好相反。两者的一致性程度一致，pos权重无法区分差异。为了给检测器提供更多的监督信息，准确地体现anchor的重要程度，论文提出为两者赋予更清晰的neg权重，具体由以下两部分构成。

根据COCO的验证指标，IoU不满足阈值的预测结果一律归为错误的检测。所以，IoU是决定achor为负样本的概率的唯一因素，记为。由于COCO使用的IoU阈值来计算AO，所以应该满足以下规则：

[图片上传失败...(image-639b1e-25)]

任意上单调递减的函数都可以作为中间部分。为了简便，论文采用了以下函数：

[图片上传失败...(image-fa54fb-25)]

公式6需要穿过点和，一旦确定了，参数和可通过待定系数法确定。

[图片上传失败...(image-83052a-25)]

图3展示了不同下的曲线。

在推理时，ranking队列中靠前的neg预测结果虽然不会影响召回率，但会降低准确率。为了得到更高的性能，应该尽可能地降低neg预测结果的ranking分数。所以在训练中，ranking分数较高的neg预测结果应该比ranking分数较低的预测结果更为重要。基于此，定义neg预测结果的重要程度为ranking分数的函数：

[图片上传失败...(image-1f95aa-25)]

最终，整体的neg权重变为：

[图片上传失败...(image-851912-25)]

与负相关，与正相关。对于pos权重相同的anchor，IoU更小的会有更大的neg权重。在兼容验证指标的同时，能给予检测器更多的监督信息。

pos权重和neg权重都以IoU作为输入，更准确的IoU可以保证更高质量的训练样本，有助于学习更强的特征。为此，论文提出了新的box精调操作，基于预测的四条边的偏移值进行下一步的精调。

[图片上传失败...(image-98246a-25)]

考虑到目标边界上的点有更大的概率预测准确的位置，论文设计了可学习的预测模块，基于初步的bbox为每条边生成边界点。如图4所示，四个边界点的坐标定义为：

[图片上传失败...(image-a8361b-25)]

其中，为精调模块的输出。最后，结合边界点的预测和精调模块的输出，最终精调后的anchor偏移为：

[图片上传失败...(image-935c8b-25)]

DW策略可直接应用到大多数的dense检测器中。论文将DW应用到FCOS中并进行了少量修改，将centerness分支和分类分支合并成cls分数，网络的损失为：

[图片上传失败...(image-5d0fc-25)]

[图片上传失败...(image-1a38af-25)]

这里的跟公式3是同一个，和分别为候选anchor数和非候选anchor数。

[图片上传失败...(image-20568e-25)]

平衡超参数对性能的影响。

[图片上传失败...(image-14e2fa-25)]

候选anchor选择方法对性能的影响。第一种为中心点的距离阈值，第二种选择最近的几个，第三种为距离权重与pos权重乘积排序。

[图片上传失败...(image-74467a-25)]

neg权重计算方式对比。

[图片上传失败...(image-8baa09-25)]

LA研究之间的对比。

[图片上传失败...(image-9d2740-25)]

与SOTA检测算法对比。

论文提出自适应的label assignment方法DW，打破了以往耦合加权的惯例。根据不同角度的一致性和非一致性指标，动态地为anchor分配独立的pos权重和neg权重，可以更全面地监督训练。此外，论文还提出了新的预测框精调操作，在回归特征图上直接精调预测框。

深度学习目前已经应用到了各个领域，应用场景大体分为三类：物体识别，目标检测，自然语言处理。目标检测可以理解为是物体识别和物体定位的综合，不仅仅要识别出物体属于哪个分类，更重要的是得到物体在图片中的具体位置。 2014年R-CNN算法被提出，基本奠定了two-stage方式在目标检测领域的应用。它的算法结构如下图算法步骤如下： R-CNN较传统的目标检测算法获得了50%的性能提升，在使用VGG-16模型作为物体识别模型情况下，在voc2007数据集上可以取得66%的准确率，已经算还不错的一个成绩了。其最大的问题是速度很慢，内存占用量很大，主要原因有两个针对R-CNN的部分问题，2015年微软提出了Fast R-CNN算法，它主要优化了两个问题。 R-CNN和fast R-CNN均存在一个问题，那就是由选择性搜索来生成候选框，这个算法很慢。而且R-CNN中生成的2000个左右的候选框全部需要经过一次卷积神经网络，也就是需要经过2000次左右的CNN网络，这个是十分耗时的（fast R-CNN已经做了改进，只需要对整图经过一次CNN网络）。这也是导致这两个算法检测速度较慢的最主要原因。 faster R-CNN 针对这个问题，提出了RPN网络来进行候选框的获取，从而摆脱了选择性搜索算法，也只需要一次卷积层操作，从而大大提高了识别速度。这个算法十分复杂，我们会详细分析。它的基本结构如下图主要分为四个步骤：使用VGG-16卷积模型的网络结构：卷积层采用的VGG-16模型，先将PxQ的原始图片，缩放裁剪为MxN的图片，然后经过13个conv-relu层，其中会穿插4个max-pooling层。所有的卷积的kernel都是3x3的，padding为1，stride为1。pooling层kernel为2x2, padding为0，stride为2。 MxN的图片，经过卷积层后，变为了(M/16) x (N/16)的feature map了。 faster R-CNN抛弃了R-CNN中的选择性搜索（selective search）方法，使用RPN层来生成候选框，能极大的提升候选框的生成速度。RPN层先经过3x3的卷积运算，然后分为两路。一路用来判断候选框是前景还是背景，它先reshape成一维向量，然后softmax来判断是前景还是背景，然后reshape恢复为二维feature map。另一路用来确定候选框的位置，通过bounding box regression实现，后面再详细讲。两路计算结束后，挑选出前景候选框（因为物体在前景中），并利用计算得到的候选框位置，得到我们感兴趣的特征子图proposal。卷积层提取原始图像信息，得到了256个feature map，经过RPN层的3x3卷积后，仍然为256个feature map。但是每个点融合了周围3x3的空间信息。对每个feature map上的一个点，生成k个anchor（k默认为9）。anchor分为前景和背景两类（我们先不去管它具体是飞机还是汽车，只用区分它是前景还是背景即可）。anchor有[x,y,w,h]四个坐标偏移量，x,y表示中心点坐标，w和h表示宽度和高度。这样，对于feature map上的每个点，就得到了k个大小形状各不相同的选区region。对于生成的anchors，我们首先要判断它是前景还是背景。由于感兴趣的物体位于前景中，故经过这一步之后，我们就可以舍弃背景anchors了。大部分的anchors都是属于背景，故这一步可以筛选掉很多无用的anchor，从而减少全连接层的计算量。对于经过了3x3的卷积后得到的256个feature map，先经过1x1的卷积，变换为18个feature map。然后reshape为一维向量，经过softmax判断是前景还是背景。此处reshape的唯一作用就是让数据可以进行softmax计算。然后输出识别得到的前景anchors。另一路用来确定候选框的位置，也就是anchors的[x,y,w,h]坐标值。如下图所示，红色代表我们当前的选区，绿色代表真实的选区。虽然我们当前的选取能够大概框选出飞机，但离绿色的真实位置和形状还是有很大差别，故需要对生成的anchors进行调整。这个过程我们称为bounding box regression。假设红色框的坐标为[x,y,w,h], 绿色框，也就是目标框的坐标为[Gx, Gy,Gw,Gh], 我们要建立一个变换，使得[x,y,w,h]能够变为[Gx, Gy,Gw,Gh]。最简单的思路是，先做平移，使得中心点接近，然后进行缩放，使得w和h接近。如下：我们要学习的就是dx dy dw dh这四个变换。由于是线性变换，我们可以用线性回归来建模。设定loss和优化方法后，就可以利用深度学习进行训练，并得到模型了。对于空间位置loss，我们一般采用均方差算法，而不是交叉熵（交叉熵使用在分类预测中）。优化方法可以采用自适应梯度下降算法Adam。得到了前景anchors，并确定了他们的位置和形状后，我们就可以输出前景的特征子图proposal了。步骤如下： 1，得到前景anchors和他们的[x y w h]坐标。 2，按照anchors为前景的不同概率，从大到小排序，选取前pre_nms_topN个anchors，比如前6000个 3，剔除非常小的anchors。 4，通过NMS非极大值抑制，从anchors中找出置信度较高的。这个主要是为了解决选取交叠问题。首先计算每一个选区面积，然后根据他们在softmax中的score（也就是是否为前景的概率）进行排序，将score最大的选区放入队列中。接下来，计算其余选区与当前最大score选区的IOU（IOU为两box交集面积除以两box并集面积，它衡量了两个box之间重叠程度）。去除IOU大于设定阈值的选区。这样就解决了选区重叠问题。 5，选取前post_nms_topN个结果作为最终选区proposal进行输出，比如300个。经过这一步之后，物体定位应该就基本结束了，剩下的就是物体识别了。和fast R-CNN中类似，这一层主要解决之前得到的proposal大小形状各不相同，导致没法做全连接。全连接计算只能对确定的shape进行运算，故必须使proposal大小形状变为相同。通过裁剪和缩放的手段，可以解决这个问题，但会带来信息丢失和图片形变问题。我们使用ROI pooling可以有效的解决这个问题。 ROI pooling中，如果目标输出为MxN，则在水平和竖直方向上，将输入proposal划分为MxN份，每一份取最大值，从而得到MxN的输出特征图。 ROI Pooling层后的特征图，通过全连接层与softmax，就可以计算属于哪个具体类别，比如人，狗，飞机，并可以得到cls_prob概率向量。同时再次利用bounding box regression精细调整proposal位置，得到bbox_pred，用于回归更加精确的目标检测框。这样就完成了faster R-CNN的整个过程了。算法还是相当复杂的，对于每个细节需要反复理解。faster R-CNN使用resNet101模型作为卷积层，在voc2012数据集上可以达到的准确率，超过yolo ssd和yoloV2。其最大的问题是速度偏慢，每秒只能处理5帧，达不到实时性要求。针对于two-stage目标检测算法普遍存在的运算速度慢的缺点， yolo创造性的提出了one-stage。也就是将物体分类和物体定位在一个步骤中完成。 yolo直接在输出层回归bounding box的位置和bounding box所属类别，从而实现one-stage。通过这种方式， yolo可实现45帧每秒的运算速度，完全能满足实时性要求（达到24帧每秒，人眼就认为是连续的）。它的网络结构如下图：主要分为三个部分：卷积层，目标检测层，NMS筛选层。采用Google inceptionV1网络，对应到上图中的第一个阶段，共20层。这一层主要是进行特征提取，从而提高模型泛化能力。但作者对inceptionV1进行了改造，他没有使用inception module结构，而是用一个1x1的卷积，并联一个3x3的卷积来替代。（可以认为只使用了inception module中的一个分支，应该是为了简化网络结构）先经过4个卷积层和2个全连接层，最后生成7x7x30的输出。先经过4个卷积层的目的是为了提高模型泛化能力。yolo将一副448x448的原图分割成了7x7个网格，每个网格要预测两个bounding box的坐标(x,y,w,h)和box内包含物体的置信度confidence，以及物体属于20类别中每一类的概率（yolo的训练数据为voc2012，它是一个20分类的数据集）。所以一个网格对应的参数为（4x2+2+20) = 30。如下图其中前一项表示有无人工标记的物体落入了网格内，如果有则为1，否则为0。第二项代表bounding box和真实标记的box之间的重合度。它等于两个box面积交集，除以面积并集。值越大则box越接近真实位置。分类信息： yolo的目标训练集为voc2012，它是一个20分类的目标检测数据集。常用目标检测数据集如下表： | Name | # Images (trainval) | # Classes | Last updated | | --------------- | ------------------- | --------- | ------------ | | ImageNet | 450k | 200 | 2015 | | COCO | 120K | 90 | 2014 | | Pascal VOC | 12k | 20 | 2012 | | Oxford-IIIT Pet | 7K | 37 | 2012 | | KITTI Vision | 7K | 3 | | 每个网格还需要预测它属于20分类中每一个类别的概率。分类信息是针对每个网格的，而不是bounding box。故只需要20个，而不是40个。而confidence则是针对bounding box的，它只表示box内是否有物体，而不需要预测物体是20分类中的哪一个，故只需要2个参数。虽然分类信息和confidence都是概率，但表达含义完全不同。筛选层是为了在多个结果中（多个bounding box）筛选出最合适的几个，这个方法和faster R-CNN 中基本相同。都是先过滤掉score低于阈值的box，对剩下的box进行NMS非极大值抑制，去除掉重叠度比较高的box（NMS具体算法可以回顾上面faster R-CNN小节）。这样就得到了最终的最合适的几个box和他们的类别。 yolo的损失函数包含三部分，位置误差，confidence误差，分类误差。具体公式如下：误差均采用了均方差算法，其实我认为，位置误差应该采用均方差算法，而分类误差应该采用交叉熵。由于物体位置只有4个参数，而类别有20个参数，他们的累加和不同。如果赋予相同的权重，显然不合理。故yolo中位置误差权重为5，类别误差权重为1。由于我们不是特别关心不包含物体的bounding box，故赋予不包含物体的box的置信度confidence误差的权重为，包含物体的权重则为1。 Faster R-CNN准确率mAP较高，漏检率recall较低，但速度较慢。而yolo则相反，速度快，但准确率和漏检率不尽人意。SSD综合了他们的优缺点，对输入300x300的图像，在voc2007数据集上test，能够达到58 帧每秒( Titan X 的 GPU )，的mAP。 SSD网络结构如下图：和yolo一样，也分为三部分：卷积层，目标检测层和NMS筛选层 SSD论文采用了VGG16的基础网络，其实这也是几乎所有目标检测神经网络的惯用方法。先用一个CNN网络来提取特征，然后再进行后续的目标定位和目标分类识别。这一层由5个卷积层和一个平均池化层组成。去掉了最后的全连接层。SSD认为目标检测中的物体，只与周围信息相关，它的感受野不是全局的，故没必要也不应该做全连接。SSD的特点如下。每一个卷积层，都会输出不同大小感受野的feature map。在这些不同尺度的feature map上，进行目标位置和类别的训练和预测，从而达到多尺度检测的目的，可以克服yolo对于宽高比不常见的物体，识别准确率较低的问题。而yolo中，只在最后一个卷积层上做目标位置和类别的训练和预测。这是SSD相对于yolo能提高准确率的一个关键所在。如上所示，在每个卷积层上都会进行目标检测和分类，最后由NMS进行筛选，输出最终的结果。多尺度feature map上做目标检测，就相当于多了很多宽高比例的bounding box，可以大大提高泛化能力。和faster R-CNN相似，SSD也提出了anchor的概念。卷积输出的feature map，每个点对应为原图的一个区域的中心点。以这个点为中心，构造出6个宽高比例不同，大小不同的anchor（SSD中称为default box）。每个anchor对应4个位置参数(x,y,w,h)和21个类别概率（voc训练集为20分类问题，在加上anchor是否为背景，共21分类）。如下图所示：另外，在训练阶段，SSD将正负样本比例定位1：3。训练集给定了输入图像以及每个物体的真实区域（ground true box），将default box和真实box最接近的选为正样本。然后在剩下的default box中选择任意一个与真实box IOU大于的，作为正样本。而其他的则作为负样本。由于绝大部分的box为负样本，会导致正负失衡，故根据每个box类别概率排序，使正负比例保持在1：3。SSD认为这个策略提高了4%的准确率另外，SSD采用了数据增强。生成与目标物体真实box间IOU为的patch，随机选取这些patch参与训练，并对他们进行随机水平翻转等操作。SSD认为这个策略提高了的准确率。和yolo的筛选层基本一致，同样先过滤掉类别概率低于阈值的default box，再采用NMS非极大值抑制，筛掉重叠度较高的。只不过SSD综合了各个不同feature map上的目标检测输出的default box。 SSD基本已经可以满足我们手机端上实时物体检测需求了，TensorFlow在Android上的目标检测官方模型，就是通过SSD算法实现的。它的基础卷积网络采用的是mobileNet，适合在终端上部署和运行。针对yolo准确率不高，容易漏检，对长宽比不常见物体效果差等问题，结合SSD的特点，提出了yoloV2。它主要还是采用了yolo的网络结构，在其基础上做了一些优化和改进，如下网络采用DarkNet-19：19层，里面包含了大量3x3卷积，同时借鉴inceptionV1，加入1x1卷积核全局平均池化层。结构如下 yolo和yoloV2只能识别20类物体，为了优化这个问题，提出了yolo9000，可以识别9000类物体。它在yoloV2基础上，进行了imageNet和coco的联合训练。这种方式充分利用imageNet可以识别1000类物体和coco可以进行目标位置检测的优点。当使用imageNet训练时，只更新物体分类相关的参数。而使用coco时，则更新全部所有参数。 YOLOv3可以说出来直接吊打一切图像检测算法。比同期的DSSD(反卷积SSD), FPN（feature pyramid networks）准确率更高或相仿，速度是其1/3.。 YOLOv3的改动主要有如下几点：不过如果要求更精准的预测边框，采用COCO AP做评估标准的话，YOLO3在精确率上的表现就弱了一些。如下图所示。当前目标检测模型算法也是层出不穷。在two-stage领域， 2017年Facebook提出了mask R-CNN 。CMU也提出了A-Fast-RCNN 算法，将对抗学习引入到目标检测领域。Face++也提出了Light-Head R-CNN，主要探讨了 R-CNN 如何在物体检测中平衡精确度和速度。 one-stage领域也是百花齐放，2017年首尔大学提出 R-SSD 算法，主要解决小尺寸物体检测效果差的问题。清华大学提出了 RON 算法，结合 two stage 名的方法和 one stage 方法的优势，更加关注多尺度对象定位和负空间样本挖掘问题。目标检测领域的深度学习算法，需要进行目标定位和物体识别，算法相对来说还是很复杂的。当前各种新算法也是层不出穷，但模型之间有很强的延续性，大部分模型算法都是借鉴了前人的思想，站在巨人的肩膀上。我们需要知道经典模型的特点，这些tricks是为了解决什么问题，以及为什么解决了这些问题。这样才能举一反三，万变不离其宗。综合下来，目标检测领域主要的难点如下：一文读懂目标检测AI算法：R-CNN，faster R-CNN，yolo，SSD，yoloV2 从YOLOv1到v3的进化之路 SSD-Tensorflow超详细解析【一】：加载模型对图片进行测试 YOLO C#项目参考：项目实践贴个图。

最新传感器与检测技术论文

传感器在环境检测中可分为气体传感器和液体传感器，这是我为大家整理的传感器检测技术论文，仅供参考!

试述传感器技术在环境检测中的应用

摘要：传感器在环境检测中可分为气体传感器和液体传感器，其中气体传感器主要检测氮氧化合物和含硫氧化物;液体传感器主要检测重金属离子、多环芳香烃类、农药、生物来源类。本文阐述了传感器技术在环境检测方面的应用。

关键词：气体传感器液体传感器环境检测

中图分类号：O659 文献标识码：A 文章编号：

随着人们对环境质量越加重视，在实际的环境检测中，人们通常需要既能方便携带，又可以够实现多种待测物持续动态监测的仪器和分析设备。而新型的传感器技术就能够很好的满足上述需求。

传感器技术主要包括两个部分：能与待测物反应的部分和信号转换器部分。信号转换器的作用是将与待测物反应后的变化通过电学或光学信号表示出来。根据检测方法的不同，我们将传感器分为光学传感器和电化学传感器;根据反应原理的不同，分为免疫传感器、酶生物传感器、化学传感器;根据检测对象不同，分为液体传感器和气体传感器。

1气体传感器

气体传感器可以对室内的空气质量进行检测，尤其是有污染的房屋或楼道;也可以对大气环境中的污染物进行检测，如含硫氧化物、氮氧化合物等，检测过程快速方便地。

以含氮氧化物(NOx)为例。汽车排放的尾气是含氮氧化物的主要来源，但随着时代的发展，国内消费水平的提高，汽车尾气的排放量呈逐年上升趋势。通过金属氧化物半导体对汽车尾气及工厂废气中的含氮氧化物进行直接检测。如Dutta设计的传感器，采用铂为电极，氧化钇和氧化锆为氧离子转换器，安装到气体排放口，可以检测到含量为10-4~10-3的NO。含硫氧化物是造成酸雨的主要物质，也是目前环境检测的重点项目，因为在大气环境中的含量低于10-6，需要更高灵敏度的传感器。如高检测的灵敏度的表面声波设备。

Starke等人采用直径为8~16nm的氧化锡、氧化铟、氧化钨纳米颗粒制作的纳米颗粒传感器，对NO和NO2的检测下限可达到10-8，提高反应的比表面积，增加反应灵敏度，且工作温度比常规的传感器大大降低，减少了能源消耗。

2液体传感器

在实际环境检测中，液体传感器大多应用于水的检测。由于水环境中的污染物种类广泛，因此液体传感器比气体传感器的应用更为广泛和重要。水中的污染物除了少量的天然污染物以外，大部分都是人为倾倒的无机物和有机物。无机物中，重金属离子为重点检测对象;有机污染物包括杀虫剂、激素类代谢物、多环芳香烃类物质等。这些污染物的过度超标，会严重影响到所有生物体的健康和安全。

重金属离子检测

采水体中重金属离子的主要来源包括开矿、冶金、印染等企业排放的废水。这些生产废水往往混合了多种废水，所含的重金属离子种类繁多，常见的有汞、锰、铅、镉、铬等。重金属离子会不断发生形态的改变和在不同相之间进行转移，若处置不当，容易形成二次污染。生物体从环境中摄取到的重金属离子，经过食物链，逐渐在高级生物体内富集，最终导致生物体的中毒。因此如果供人类食用的鱼类金属离子超标，将对人类产生严重的影响，因此对于重金属离子的检测显得尤为重要。

Burge等人发明的传感器，可以利用1,2,2联苯卡巴肼和分光光度计，可以检测地下水中的重金属铬浓度是否超标。

除了通过化学反应检测外，采用特殊的生物物质，也可以方便和灵敏地检测重金属离子。如大肠杆菌体内有一种蛋白质可以结合镍离子，有人在这种蛋白质的镍离子结合位点附近插入荧光基团，当蛋白质结合镍离子后，荧光基团会被淬灭，由于荧光的强度与镍离子浓度成反比，从而实现对镍离子的定量检测，检测范围未10-8~10-2mol/L。日方法也可应用于检测Cu2+、Co2+、Fe2+和Cd2+等几种离子中。他们还结合了微流体技术，该技术只需消耗几十纳升体积的待测液体，就可以对100nmol/L以下浓度的Pb2+进行检测。Matsunaga小组将TPPS固定在多孔硅基质中，当环境中存在Hg2+时，随着Hg2+浓度的变化，TPPS的颜色会从橘黄色逐渐转变成绿色，该传感器的检测限为，通过加入硅铝酸去除干扰离子Ni2+和Zn2+。

利用传感器技术不仅可以准确测定待测物的浓度，而且由于传感器的微型化技术特点，还可以通过传感器的偶联，进行多项指标的检测。Lau等人设计了基于发光二极管原理的传感器，可以同时检测Cd2+和Pb2+，该传感器对Cd2+和Pb2+的检测限分别为10-6和10-8。

农药残留物质的检测

农药是一类特殊的化学品，它在防治农林病虫害的同时，也会对人畜造成严重的危害。中国是农业大国，每年的农药使用量相当庞大，因此有必要对其进行监测。采用钴-苯二甲蓝染料和电流计就能方便地检测三嗪类除草剂，无需脱氧，直接检测的下限为50Lg/L，如果通过预处理进行样品浓缩后，检测限可以达到200ng/L。

采用带有光纤的红外光谱传感器可以进行杀虫剂的快速检测。将光纤内壁涂覆经非极性有机物修饰的气溶胶材料后，能显著改善光纤中水分子对信号的耗散作用，并且能够提取出溶液中的有机磷类杀虫剂进行光谱分析。此类传感器对于有机溶剂，如苯、甲苯、二甲苯的检测限则可达10-8~8*10-8。

多环芳香烃类化合物的检测

多环芳香烃类物质是另外一大类有害的污染物质，这类物质具有致癌性，但在许多工业生产过程中均会使用或产生此类物质。水体中的多环芳香烃类物质含量非常低，一般在10-9范围内，因此需要借助高灵敏度的检测传感器，Schechter小组发明了光纤光学荧光传感器。在直接检测过程中，待测样本中还可能存在一些如泥土这样的干扰物质，会降低检测信号值，如果用聚合物膜先将非极性的PAH富集，然后对膜上的物质进行荧光检测，从而解决信号干扰问题，报道称这种经膜富集后的传感器技术，对pyrene的检测可达到6*10-11，蒽类物质则可达4*10-10。Stanley等人利用石英晶振微天平作为传感器，在芯片表面固定上蒽-碳酸的单分子膜，检测限可达到2*10-9。

基于免疫分析原理，采用分子印迹的方法，在传感器表面印上能够结合不同待测物质的抗体分子，可以实现多种不同物质的检测。近年来发展起来的微接触印刷技术，也可应用到该领域，这样制备得到的传感器体积可以更加微型化。

生物类污染物质

除了以上的无机和有机合成类污染物质，还有生物来源的一些潜在污染分子。如激素类分子及其代谢物的污染常常会引起生物体生长、发育和繁殖的异常。Gauglitz带领的研究小组采用全内反射荧光生物传感器和睾丸激素抗体，对河流中的睾丸激素直接进行了即时检测，其检测限为。该技术无需样品的预处理，对于不同地区的自然界水体均可以进行睾丸激素的现场直接检测，检测范围为9~90ng/L。

另外，致病菌和病毒也是被检测的对象，水体中出现某些特定菌种，可以表明水体受到了某种污染，利用传感器技术非常容易检测到这些生物样本的存在，而且选择性非常高，如可以从烟草叶中快速地发现植物病毒烟草花叶病毒，采用QCM可以直接检测到酵母细胞的数量。

3结论和展望

目前，传感器技术已开始应用于各环境监测机构的应急检测，但是实际应用中有诸多的局限性，比如在对大气中的某些有害物质进行检测时，由于其含量往往低于传感器的最低检测限，因此在实际应用过程中，还需要进行气体的浓缩处理，这样就使传感器不容易实现微型化，或者需要借助更高灵敏度的传感器;同样，在野外水体检测时，常常会出现待测水体含有多种复杂干扰成分的情况，无法与实验室的标准化条件相比;在有些以膜分离分析技术为原理的传感器中，其膜的使用寿命往往较短，而频繁更换新膜的价格较为昂贵，因此仍然无法得到广泛的应用。

尽管如此，随着传感器技术的不断发展和完善，仍然有望应用于将来工厂企业排气、排污的现场直接检测和野外环境的动态无人监测，而且其结果能与实验室常规仪器的检测结果相符，这样将大大加快对环境监测和治理的步伐。

参考文献

[1]NaglS，，2007，132:507-511.

[2]，2005，59:209-217.

[3]HanrahanG，，2004，6:657-664.

[4]HoneychurchKC，，2003，22:456-469.

[5]AmineA，，2006，21:1405-1423

传感器与自动检测技术教学改革探讨

摘要：传感器与自动检测技术是电气信息类专业重要的主干专业课，传统授课方法侧重于理论知识的传授，而忽略了应用层面的培养。针对此问题试图从教学目的、教学内容、教学形式、教学效果等多个方面进行分析，对该课程的教学方案改革进行探讨，提出一套技能与理论知识相结合、行之有效的教学方案。

关键词：传感器与自动检测技术;教学内容;教学模式;工程思维

“传感器与自动检测技术”是电气信息类专业重要的主干专业课，是一门必修课，也是一门涉及电工电子技术、传感器技术、光电检测技术、控制技术、计算机技术、数据处理技术、精密机械设计技术等众多基础理论和技术的综合性技术，现代检测系统通常集光、机、电于一体，软硬件相结合。

“传感器与自动检测技术”课程于20世纪80年代开始在我国普通高校的本科阶段和研究生阶段开设。本课程侧重于传感器与自动检测技术理论的传授，重知识，轻技能;教师之间也缺乏沟通，教学资源不能得到充分利用，教学效果不理想，学生学习兴趣不高。

一、教学过程中发现的问题及改革必要性分析

笔者在独立学院讲授“传感器与自动检测技术”课程已有四年，最开始沿用了研究型大学的教学计划和教学大纲，由于研究型大学是以培养研究型人才为主，而独立学院是以培养应用型人才为主，在人才培养目标上有较大差异，在逐渐深入的过程中发现传统方案不太符合学院培养应用型人才的定位，存在以下几方面的问题。

1.重理论，轻实践

该课程是应用型课程，其中也有大量的理论知识、数学推导，而传统的研究型教学方法普遍都以理论教学为主，在课堂上大篇幅讲解传感器的原理，进行数学公式推导，相比而言传感器的应用通常只是通过一个实例简单介绍，导致最后大多数学生只是粗略地知道该传感器的结构，而不知道如何用，在哪里用。

2.教学模式单一

该课程传统上以讲授的教学方式为主，将现成的结论、公式和定理告诉学生，学生不能主动地思考和探索，过程枯燥乏味，导致学生产生了厌学情绪。同时理论教学与实训、实践教学脱节问题也很严重。

3.教学实验安排不合理

传统的实验课程安排，验证性实验比例高达80%，综合设计性实验极少，缺少实训、实践环节。然而应用型人才的培养应该以实践教学为核心，重点培养学生的工程思维和实践能力、动手能力，以在学生毕业时达到企业对技术水平与能力的要求，使学生毕业后能尽快适应工作岗位。

二、适合独立学院培养应用型人才的教学方案改革

传统的传感器与自动检测技术课程重理论、轻实践，教学模式单一，教学实验以验证性实验为主，这种方案能够培养研究型人才，但却无法培养合格的应用型人才。在教学过程中，笔者潜心研习，并反复实践，总结出以下几个可以改革的方面。

1.优化教学内容，注重工程思维

本课程一个很重要的内容是各种类型传感器的原理，传统的教学要讲清楚其中的来龙去脉，而本人则认为针对应用型人才培养，充分讲授清楚基本概念、基本原理和基本方法即可，涉及大额数学公式可以选择重要的进行讲解，其他则可作为学生的自学内容，让学生课余自学。同时应该重点讲解该传感器的工程应用实例;另一方面要结合最新实际工程讲解。这样才能激发学生的学习兴趣，培养学生应用型工程学习思维。

2.改革教学方法，改变教学模式

传统的教学是“灌输式”的方法，无论学生是否接受，直接把要讲的内容全部讲述给学生，而这也违背了培养学生分析问题和解决问题的能力以及创新能力的出发点和归宿。笔者认为应该应用工程案例教学，实行启发式、讨论式、研究式等与实践相结合的教学方法，发挥学生在教学活动中的主体地位。

3.与工程实际相结合，与其他课程相结合

教学过程中要从不同行业提取典型的工程应用实例，精简以后作为实例进行讲解。在进行教学时，要培养学生的系统观，让学生明白这不是一门独立的课程，而是与自动控制原理、智能控制理论等课程相融合的，以达到融会贯通的学习效果。

4.实验环节改革

实验教学主要是为了提高学生的动手能力、分析问题和解决问题的能力，加深学生对课堂教学中理论、概念的感性认识。以往该课程的实验内容大部分为原理性、验证性的实验，学生容易感到枯燥无味，毫无学习积极性，很少有学生进行独立思考并发现问题，实验效果极不理想。为了改变这种模式化的教育，笔者将实验内容由传统的验证性实验调整为设计开发型实验。在实验教学中根据客观条件在适当减少验证性实验的基础上，增加了开拓性实验项目以及设计综合性实验。

5.改革教学评价方法，提高课堂教学效率

高效的学习成果反馈机制是促进教学相长的必要手段，目前该课程都是通过课程作业进行学习效果反馈，可以采用每一个章节布置一道设计型题目，让学生更加广泛地查阅资料，并在一定知识广度的基础上深入分析题目中用到的内容，进而从更深的层面分析解决问题，以达到深度、广度相结合的效果。

本文针对传感器与自动检测技术传统研究型大学的方案，提出了三个方面的问题，并根据四年的教学积累，在教学内容、教学模式、实验环节、教学评价及反馈等几个方面进行了探讨分析并提出了一套改革的方法和措施。本方案以实际工程应用实例为核心，在教学内容上侧重于传感器应用方面的讲解，以提出问题、分析问题、解决问题为主线调动学生的学习积极性和主动性，培养学生的工程思维和能力，重视实验环节，以设计性、综合性实验代替验证性实验培养学生将抽象的知识具体化、培养学生的实际应用能力、动手能力和创新能力。

参考文献：

[1]吴建平，甘媛.“传感器”课程实验教学研究[J].成都理工大学学报.

[2]曹良玉，赵堂春.传感器技术及其应用.课程改革初探[J].中国现代教育装备.

[3]李玉华，胡雪梅.传感器及应用.课程教学改革的探讨Ⅱ技术与市场.

传感器(英文名称：transducer/sensor)是直接作用于被测量、并能按一定规律将其转化为同种或别种量值输出的器件。这是我为大家整理的传感器技术论文范文，仅供参考!传感器技术论文范文篇一传感器及其概述摘要传感器(英文名称：transducer/sensor)是直接作用于被测量、并能按一定规律将其转化为同种或别种量值输出的器件。目前，传感器转换后的信号大多是电信号，因而从狭义上讲，传感器是把外界输入的非电信号转换为电信号的装置。【关键词】传感器种类新型 1 前言传感器是测试系统的一部分，其作用类似于人类的感觉器官，也可以认为是人类感官的延伸。人们借助传感器可以去探测那些人们无法用或不便用感官直接感知的事物，如用热电偶可以测量炽热物体的温度;用超声波换能器可以测海水深度;用红外遥感器可从高空探测地面形貌、河流状态及植被的分布等。因此，可以说传感器是人们认识自然界事物的有力工具，是测量仪器与被测量物体之间的接口。通常情况下，传感器处于测试装置的输入端，是测试系统的第一个环节，其性能直接影响着整个测试系统，对测试精度有很大影响。 2 传感器的分类按被测物理量的不同，可以分为位移、力、温度、流量传感器等;按工作的基础不同，可以分为机械式传感器、电气式传感器、光学式传感器、流体式传感器等;按信号变换特征可以分为物性型传感器和结构型传感器;根据敏感元件与被测对象直接的能量关系，可以分为能量转换型传感器与能量控制型传感器。 3 常见传感器介绍电阻应变式传感器电阻应变式传感器又叫电阻应变计，其敏感元件是电阻应变。应变片是在用苯酚，环氧树脂等绝缘材料浸泡过的玻璃基板上，粘贴直径为左右的金属丝或金属箔制成。敏感元件也叫敏感栅。其具有体积小、动态响应快、测量精度高、使用简单等优点。在航空、机械、建筑等各行业获得了广泛应用。电阻应变片的工作原理是基于金属的应变效应，即金属导体在外力作用下产生机械形变，其电阻值随机械变形的变化而变化。其可以分为：金属电阻应变片和半导体应变片式两类。金属应变片有金属丝式、箔式、薄膜式之分。半导体应变片具有灵敏度高(通常是丝式、箔式的几十倍)、横向效应小等优点。它们的主要区别在于：金属电阻应变片式是利用导体形变引起电阻变化，而半导体应变片式则是利用电阻率变化引起电阻的变化。电容式传感器电容式传感器是将被测物理量转换成电容量变化的装置，它实质是一个具有可变参数的电容器。由于电容与极距成反比，与正对面积和介质成正比，因此其可以分为极距变化型、面积变化型和介质变化型三类。极距变化型电容传感器的优点是可进行动态非接触式测量，对被测系统的影响小，灵敏度高，适用于较小位移的测量，但这种传感器有非线性特性，因此使用范围受到一定限制。面积变化型传感器的优点是输出与输入成线性关系，但与极距型传感器相比，灵敏度较低，适用于较大的直线或角位移的测量。介质变化型则多用于测量液体的高度等场合。电感式传感器电感式传感器是将被测物理量，如力、位移等，转换为电感量变换的一种装置，其变换是基于电磁感应原理。电感式传感器种类很多，常见的有自感式，互感式和涡流式三种。电感式传感器具有以下特点：结构简单，传感器无活动电触点，因此工作可靠寿命长。灵敏度和分辨力高，能测出微米的位移变化。传感器的输出信号强，电压灵敏度一般每毫米的位移可达数百毫伏的输出。线性度和重复性都比较好，在一定位移范围(几十微米至数毫米)内，传感器非线性误差可达～。同时，这种传感器能实现信息的远距离传输、记录、显示和控制，它在工业自动控制系统中广泛被采用。但不足的是，它有频率响应较低，不宜快速动态测控等缺点。磁电式传感器磁电式传感器是把被测物理量转换为感应电动势的一种传感器，又称电磁感应式或电动力式传感器。其工作原理是一个匝数为N的线圈，当穿过它的磁通量变化时，线圈产生了感应电动势。磁通量的变化可通过多种方式来实现，如磁铁与线圈做切割磁力线运动、磁路的磁阻变化、恒定磁场中线圈面积的变化，因此可制造出不同类型的传感器用于测量速度、扭矩等。压电式传感器压电式传感器是一种可逆传感器，是利用某些物质的压电效应进行工作的器件。最简单的压电式传感器是在压电晶片的两个工作面上进行金属蒸镀，形成金属膜，构成两个电极。当晶片受压力时，两个极板上聚集数量相等而极性相反的电荷，形成电场。因此压电传感器可以看成是电荷发生器，又可以看作电容器。 4 新型传感器生物传感器生物传感器是用生物活性材料(酶、蛋白质、DNA、抗体、抗原、生物膜等)与物理化学换能器有机结合的一门交叉学科，是发展生物技术必不可少的一种先进的检测方法与监控方法，也是物质分子水平的快速、微量分析方法。各种生物传感器有以下共同的结构：包括一种或数种相关生物活性材料(生物膜)及能把生物活性表达的信号转换为电信号的物理或化学换能器(传感器)，二者组合在一起，用现代微电子和自动化仪表技术进行生物信号的再加工，构成各种可以使用的生物传感器分析装置、仪器和系统。生物传感器的原理：待测物质经扩散作用进入生物活性材料，经分子识别，发生生物学反应，产生的信息继而被相应的物理或化学换能器转变成可定量和可处理的电信号，再经二次仪表放大并输出，便可知道待测物浓度。激光传感器激光传感器：利用激光技术进行测量的传感器。它由激光器、激光检测器和测量电路组成。激光传感器是新型测量仪表，它的优点是能实现无接触远距离测量，速度快，精度高，量程大，抗光、电干扰能力强等。激光传感器原理：激光传感器工作时，先由激光发射二极管对准目标发射激光脉冲。经目标反射后激光向各方向散射。部分散射光返回到传感器接收器，被光学系统接收后成像到雪崩光电二极管上。雪崩光电二极管是一种内部具有放大功能的光学传感器，因此它能检测极其微弱的光信号，并将其转化为相应的电信号。 5 结束语随着科技的飞速发展，人们不断提高着自身认知世界的能力。传感器在获取自然和生产领域中发挥着巨大上的作用。目前，传感器技术在发展经济、推动社会进步方面起到重要的推动作用。相信未来，传感器技术将会出现一个飞跃。作者简介杨天娟(1991-)，女，河北省邯郸市人。现为郑州大学本科生，主要研究方向为机械工程及自动化。作者单位郑州大学机械工程学院河南省郑州市 450001 传感器技术论文范文篇二温度传感器摘要：温度传感器是最早开发、也是应用最广泛的一种传感器。据调查，早在1990年，温度传感器的市场份额就大大超出了其它传感器。从17世纪初，伽利略发明温度计开始，人们便开始了温度测量。而真正把温度转换成电信号的传感器，是1821年德国物理学家赛贝发明的，也就是我们现在使用的热电偶传感器。随后，铂电阻温度传感器、半导体热电偶温度传感器、PN结温度传感器、集成温度传感器相继而生。也使得温度传感器更加广泛的应用到我们的生产和生活中。本文主要介绍了温度传感器的分类、工作原理及应用。关键词：温度传感器;温度;摄氏度中图分类号：TP212 文献标识码：A 文章编号：1674-7712 (2014) 02-0000-01 温度传感器(temperature transducer)，利用物质各种物理性质随温度变化的规律把温度转换为可用输出信号。温度传感器是温度测量仪表的核心部分，品种繁多。按测量方式可分为接触式和非接触式两大类。现代的温度传感器外形非常得小，这样更加让它广泛应用在生产实践的各个领域中，也为我们的生活提供了无数的便利和功能。一、温度的相关知识温度是用来表征物体冷热程度的物理量。温度的高低要用数字来量化，温标就是温度的数值表示方法。常用温标有摄氏温标和热力学温标。摄氏温标是把标准大气压下，沸水的温度定为100摄氏度，冰水混合物的温度定为0摄氏度，在100摄氏度和0摄氏度之间进行100等份，每一等份为1摄氏度。热力学温标是威廉汤姆提出的，以热力学第二定律为基础，建立温度仅与热量有关而与物质无关的热力学温标。由于是开尔文总结出来的，所以又称为开尔文温标。二、温度传感器的分类根据测量方式不同，温度传感器分为接触式和非接触式两大类。接触式温度传感器是指传感器直接与被测物体接触，从而进行温度测量。这也是温度测量的基本形式。其中接触式温度传感器又分为热电偶温度传感器、热电阻温度传感器、半导体热敏电阻温度传感器等。非接触式温度传感器是测量物体热辐射发出的红外线，从而测量物体的温度，可以进行遥测。三、温度传感器的工作原理 (一)热电偶温度传感器。热电偶温度传感器结构简单，仅由两根不同材料的导体或半导体焊接而成，是应用最广泛的温度传感器。热电偶温度传感器是根据热电效应原理制成的：把两种不同的金属A、B组成闭合回路，两接点温度分别为t1和t2，则在回路中产生一个电动势。热电偶也是由两种不同材料的导体或半导体A、B焊接而成，焊接的一端称为工作端或热端。与导线连接的一端称为自由端或冷端，导体A、B称为热电极，总称热电偶。测量时，工作端与被测物相接触，测量仪表为电位差计，用来测出热电偶的热电动势，连接导线为补偿导线及铜导线。从测量仪表上，我们观测到的便是热电动势，而要想知道物体的温度，还需要查看热电偶的分度表。为了保证温度测量结果足够精确，在热电极材料的选择方面也有严格的要求：物理、化学稳定性要高;电阻温度系数小;导电率高;热电动势要大;热电动势与温度要有线性或简单的函数关系;复现性好;便于加工等。根据我们常用的热电极材料，热电偶温度传感器可分为标准化热电偶和非标准化热电偶。铂铑-铂热电偶是常用的标准化热电偶，熔点高，可用于测量高温，误差小，但价格昂贵，一般适用于较为精密的温度测量。铁-康铜为常用的非标准化热电偶，测温上限为600摄氏度，易生锈，但温度与热电动势线性关系好，灵敏度高。 (二)电阻式温度传感器。热电偶温度传感器虽然结构简单，测量准确，但仅适用于测量500摄氏度以上的高温。而要测量-200摄氏度到500摄氏度的中低温物体，就要用到电阻式温度传感器。电阻式温度传感器是利用导体或者半导体的电阻值随温度变化而变化的特性来测量温度的。大多数金属在温度升高1摄氏度时，电阻值要增加到。电阻式温度传感器就是要将温度的变化转化为电阻值的变化，再通过测量电桥转换成电压信号送至显示仪表。 (三)半导体热敏电阻。半导体热敏电阻的特点是灵敏度高，体积小，反应快，它是利用半导体的电阻值随温度显著变化的特性制成的。可分为三种类型：(1)NTC热敏电阻，主要是Mn，Co，Ni，Fe等金属的氧化物烧结而成，具有负温度系数。(2)CTR热敏电阻，用V，Ge，W，P等元素的氧化物在弱还原气氛中形成烧结体，它也是具有负温度系数的。(3)PTC热敏电阻，以钛酸钡掺和稀土元素烧结而成的半导体陶瓷元件，具有正温度系数。也正是因为PTC热敏电阻具有正温度系数，也制作成温度控制开关。 (四)非接触式温度传感器。非接触式温度传感器的测温元件与被测物体互不接触。目前最常用的是辐射热交换原理。这种测温方法的主要特点是：可测量运动状态的小目标及热容量小或变化迅速的对象，也可用来测量温度场的温度分布，但受环境温度影响比较大。四、温度传感器的应用举例 (一)温度传感器在汽车上的应用。温度传感器的作用是测量发动机的进气，冷却水，燃油等的温度，并把测量结果转换为电信号输送给ECU.对于所有的汽油机电控系统，进气温度和冷却水温度是ECU进行控制所必须的两个温度参数，而其他的温度参数则随电控系统的类型及控制需要而不尽相同。进气温度传感器通常安装在空气流量计或从空气滤清器到节气门体之间的进气道或空气流量计中，水温传感器则布置在发动机冷却水路，汽缸盖或机体上上的适当位置.可以用来测量温度的传感器有绕线电阻式，扩散电阻式，半导体晶体管式，金属芯式，热电偶式和半导体热敏电阻式等多种类型，目前用在进气温度和冷却水温度测量中应用最广泛的是热敏电阻式温度传感器。 (二)利用温度传感器调节卫生间的温度。温度传感器还能调节卫生间内的温度，尤其是在洗澡的时候，能自动调节卫生间内的温度是很有必要的。通过温湿度传感器和气体传感器就能很好的控制卫生间内的环境从而使我们能够拥有一个舒适的生活。现在大部分旅馆和一些公共场所都实现了自动调节，而普通家庭的卫生间都还是人工操作，尚未实现自动调节这主要是一般客户不知道能够利用传感器实现自动化，随着未来人们的进一步了解，普通家庭的卫生间也能实现自动调节。参考文献： [1]周琦.集成温度传感器的设计[D].西安电子科技大学，2007.

超声波检测技术是现代科学技术发展的产物，其检测的过程会很好的保护试件的质量和性能，这是我为大家整理的超声波检测技术论文，仅供参考!

关于超声波无损检测技术的应用研究

摘要：超声波无损检测技术是现代科学技术发展的产物，其检测的过程会很好的保护试件的质量和性能，从而获取物品的性质和特征对其进行检测。超声波无损检测技术通过结合高科技的技术来完成检测的过程，检测的结果真实可靠，可以体现出超声波无损检测技术的应用性，同时超声波无损检测技术在检测时，也存在一些缺点。

关键词：超声波无损检测;脉冲反射式技术;检测技术

中图分类号：P631 文献标识码：A 文章编号：1009-2374(2014)05-0029-02

超声波无损检测技术在检测的过程中，会使用到很多的技术，这些技术既满足了检测的需要，又能有效的解决检测中出现的问题。经过技术人员的不断探索，通过人工神经网络的技术来减少检测的缺陷，并实现了降低噪音的效果，满足了超声波无损检测的更高要求。在检测的过程中，要合理科学的利用技术手法，来提高检测结果的准确性。

1 超声波无损检测技术的发展趋势和主要功能

超声波无损检测技术的发展趋势

在超声波无损检测技术应用的过程中，需要很多理论知识的支持，检测时也对检测的方法和工艺流程有严格的要求，这些规范的检测方式使超声波无损检测的结果可以更准确。发现检测缺陷时，技术人员应用非接触方式的检测技术，运用激光超声来提高检测的效果，所以未来超声波无损检测技术一定会向着自动化操作的水平去发展。自动化的检测方法可以简化检测工作，实现专业检测的目标，扩大超声波无损检测技术应用的范围，同时随着超声技术的应用，在检测的过程中，也会实现数字化检测的目标，利用超声信号来处理技术的应用，使检测技术可以实现统一使用的要求，同时数字化操作的检测过程也会提高检测的准确性，有利于检测技术的发展。所以超声波无损检测技术将会实现全面的现代化操作要求，利用现代化科学技术的发展，来规范超声波无损检测的检测行为，也具备了处理缺陷的功能，提高了检测的效率。

超声波无损检测技术系统的主要功能

目前，我国超声波无损检测主要应用的技术是脉冲反射式的检测方法，这种技术的应用可以准确的定位缺陷出现的位置和形式，具有非常高的灵敏度，简化了技术人员检查缺陷的工作，完善了技术标准。脉冲反射式的检测技术还具有非常高的灵活性和适用性，可以适应超声波无损检测的要求，并实现一台仪器检测多种波形的检测工作。根据脉冲反射式的检测技术要求，可以实现缺陷检查的功能、操作界面切换显示的功能、显示日历时钟的功能，在实际的检测过程中功能键的使用也非常方便，简化了技术人员的操作过程，并且脉冲反射式技术具有灵敏度高的功能，使其可以及时的发现检测过程中出现的缺陷，有利于技术人员进行检修的工作，提高了检测工作的工作效率。

系统主要功能的技术指标

脉冲反射式技术在使用的过程中有很多的要求，其中要满足功能使用的技术指标，从而实现规范化的操作标准。反射电压的电量要控制在400伏，实现半波或者射频的检波方式，检测的范围要在4000-5000毫米之间，只有满足了这些技术标准才能合理的设置出技术应用的框架。同时在超声波无损检测技术应用的过程中有严格要求的电路设计，如果不能满足技术的指标要求，那么在实际检测的过程中，会存在很大的风险，会对技术人员造成严重的生命安全威胁。所以在检测工作实施之前，必须要按照相关的技术指标来合理的构建检测的环境，提高检测工作的安全性，保障检测工作可以顺利的进行。

2 超声波无损检测技术检测的方法和缺陷的显示

超声波无损检测技术检测的主要应用方法

超声波无损检测技术的检测方法按照具体的分类可以分为很多种，从检测的原理进行分析，超声波无损检测技术应用的主要方法是穿透法、脉冲反射法、共振法，按照检测探头来分类，检测的主要方法有单探头法、双探头法、多探头法，按照检测试件的耦合类型来分类，检测的主要方法有液浸法、直接接触法。这些具体的方法可以满足很多情况下的检测工作，并且提高了检测结果的准确性，完善了超声波无损检测技术的检测要求，所以技术人员要根据具体的检测环境和试件的类型来选择正确的检测方法，通过方法的应用要提高检测工作的效率，降低缺陷出现的可能。随着我国现代化科学技术的不断发展，人们对检测技术的应用也提出了更高的要求，检测工作的检测范围也越来越广，同时要求在对试件检测的过程中，不可以损坏试件的质量和性能，同时还要保准检测结果的准确性，所以技术人员要严格的按照检测标准，完成检测的工作，要对检测的方法进行改善，使其可以满足时代发展的要求。

缺陷的显示

在超声波无损检测技术检测的过程中，会出现不同类型的缺陷，主要分为A、B、C三种类型的显示，在工业检测的过程中，A类显示是应用最广泛的一种类型，在显示器上以脉冲的形式显示出来，对显示器上的长度和宽度进行标记，从而当超声波返回缺陷信号时，可以在屏幕上明确的显示出缺陷出现的位置。B类显示是通过回波信号来完成显示的过程，回波信号发出时会点亮提示灯，通过显示器的显示可以观察到缺陷出现的水平位置，这种类型的显示比较直观，有利于技术人员的观察和分析。C类显示是通过反射的回波信号来调制显示的内容，通过亮灯和暗灯来显示接收的结果，检测到缺陷时会出现亮灯，因此技术人员只需要观察灯的变化，就可以判断缺陷出现的情况。所以在实际检测的过程中，技术人员一定要认真观察缺陷出现的位置和内容，从而制定出科学合理的改善方案，来降低缺陷出现的可能，提高超声波无损检测技术检测的效果。

缺陷的定位

对于脉冲反射式超声检测技术来说，显示器的水平数值变化就是缺陷出现的位置，这时技术人员要对缺陷出现的位置进行定位，从而可以分析在检测过程中出现缺陷的环节。根据反映出的缺陷声波，经过计算，得出准确的缺陷产生的位置。

3 结语

科学技术的发展会带动我国的生产力水平的提高，同时也会促进技术的研发，超声波无损检测技术就是因为科学技术的不断发展，才实现了检测的目标，在检测的过程中，可以结合现代化的技术来提高检测的效率和结果的准确性。超声波无损检测技术实现了无损试件的检测要求，提高了检测的质量和水平，应该得到社会各界的关注，扩大检测的范围。

参考文献

[1] 耿荣生.新千年的无损检测技术――从罗马会议看无损检测技术的发展方向[J].无损检测，2010，23(12)：152-156.

[2] 中国机械工程委员会无损检测分会编.超声波检测第二版(无损检测Ⅱ级培训教材)[M].北京：机械工业出版社，2012.

[3] 李洋，杨春梅，关雪晴.基于AD603的程控直流宽带放大器设计[J].重庆文理学院学报(自然科学版)，2010，29(16)：202-203.

[4] 段灿，何娟，刘少英.多小波变换在信号去噪中的应用[J].中南民族大学学报(自然科学版)，2012，28(12)：320-325

[5] 张梅军，石文磊，赵亮.基于小波分析和Kohonen神经网络的滚动轴承故障分析[J].解放军理工大学学报，2011，12(10)：14-15.

作者简介：李新明(1992―)，男，湖北人，大连理工大学学生。

长输管道超声波内检测技术现状

【摘要】超声波内检测技术是长输管道的主要检测技术。本文介绍了长输管道超声波内检测的技术优势、国内外的发展现状，以供参考。

【关键词】长输管道超声波内检测优势现状

一、前言

长输管道是石油、天然气重要的运输手段，要保证管道的稳定运行，就要加强日常的检测和维护，及时发现问题，防止重大事故发生。

二、管道内检测主要技术及优势

管道内检测是涵盖检测方案决策、管道检测、检测数据解释分析和管道安全评价等过程的系统工程。利用智能检测器进行管线内检测是目前较为普遍的方式，该方法是通过运行在管道内的智能检测器收集、处理、存储管道检测数据，包括管道壁厚、管道腐蚀区域位置、管道腐蚀程度、管道裂纹和焊接缺陷，再将处理数据与显示技术结合描绘管道真实状况的三维图像，为管道维护方案的制定提供决策依据。超声波内检测技术和漏磁检测技术是现在最常用的海管内检测技术。

超声波内检测技术是在检测器中心安放一个水平放置的超声波传感器，传感器沿着平行于管壁的方向发射声波，声波沿着平行于管壁的方向行进直至被一个旋转镜面反射后，垂直穿透管道壁，声波触碰管道外壁后按照原路径反射回传感器，计算机计算声波发射及反射回传感器的时间，该时间就被转换为距离及管道壁厚的测量值。声波反射镜面每秒旋转2周，检测器每米可以采集3万个左右的测量值。超声波内检测技术可以原理简单，数据准确可靠，该方法可以精确测量管道的壁厚，不仅可以测量金属管线，对于非金属管线，如高密度聚乙烯管也能够有效测量，并且可测管道管径的尺寸范围较大，甚至能够测量壁厚等级80以上的大壁厚管道，对于变径管道同样适用。

管道漏磁检测技术利用磁铁在管壁上产生的纵向回路磁场来探测管道内外壁的金属损失以及裂纹等缺陷，确定上述缺陷的准确位置，检测器所带磁铁将检测器经过的管壁饱磁化，使管壁周圈形成磁回路。若管道的内壁或外壁有缺陷，围绕着管道缺陷，管道壁的磁力线将会重新进行分布，部分磁力线会在这个过程中泄露从而进入到周围的介质中去，这就是所谓的漏磁场。磁极之间紧贴管壁的探头检测到泄漏的磁场，检测到的信号经过滤波、放大、转换等处理过程后会被记录到存储器中，通过数据分析系统的处理对信号进行判断和识别。管道的漏磁检测技术具有准确性高的优点，通过在气管线中低阻力和低磨损的设计取得较高质量的数据，可以在没有收球和发球装置的情况下完成检测，对于路径超过200公里的长输管道能够以每分钟200米左右的速度进行检测。

三、长输管道建设工艺技术发展现状

1、管道焊接

管道焊接是管道建设的最重要的一个方面，现场焊接的效率高，安全性和可靠性在每个管道的建设是重要的角色。从国内长途管道工程在1950年的第一条运输管道建设以来，管道现场焊接施工在我国发展的半个世纪里主要经历了有四个发展过程，分别是：手工电弧焊上向焊、手工电弧焊下向焊、半自动焊和自动焊。

(1)手工电弧焊上向焊和手工电弧焊下向焊。90年代初手工电弧焊下向焊和手工电弧焊下向焊作为当时国内传输管道的一种焊接方法，得到了广泛的应用，突出的优点是高电流、焊接速度高，根焊接速度可达20到50厘米/分钟，焊接效率高。目前在进行焊接位置相对困难的位置和焊接设备难进入的位置时采用手工电弧焊焊接。

(2)半自动焊。电焊工通过半自动焊枪进行焊接，由连续送丝装置送丝焊接的一种方式叫做半自动焊。半自动焊是长输管道焊接的主要方式，因为在焊接送丝比较连续，就省了换焊条和其他辅助工作时间，同时熔敷率高、减少焊接接头，减少焊接电弧，电弧焊接缺陷、焊接合格率提高，

(3)自动焊。自动焊方法使整个焊接过程自动化，人工主要从事监控操作。国内开始从西到东的天然气管道项目，就是大面积的自动焊接的应用程序。自动焊接技术在新疆，戈壁等地区比较适合。

2、非开挖穿越施工技术

遇到埋管道的建设，跨越河流，道路，铁路等障碍时，有许多问题如果使用传统开挖方法则会比较难实施，而“非开挖”铺设地下管道是当前国际管道项目进行了先进的施工方法，已广泛应用于这个国家。我国近年来建设大量的长输管道采用了盾穿越技术，有许多大河流使用了盾构穿越。顶管穿越通过短距离管道穿越技术在1970年代后期开始得到使用。传统意义上的顶管施工是以人工开采为主。后来当使用螺旋钻开采和输送管顶土，后来又派生出了土压力平衡方法，泥水平衡方法，通过顶管技术，可以达到超过1千米以上的距离。通过液压以控制管切割前方的覆土，以保证顶管的方向正确，和顶采用继电器，激光测距，头部方位校正方法顶推的施工工作，长距离顶管的问题和方向问题得到了解决。

3、定向穿越技术

我国从美国引进的定向钻是在1985年首次应用于黄河的长输管道建设。在过去的20年里，非开挖定向穿越管道技术在我国得到了迅速的发展。定向钻井在非开挖管道穿越技术已广泛应用于管道业。定向钻用于铺设管道取得了巨大的成就。我国在2002年2月以2308米和273米直径的长度穿越了钱塘江，是世界上最长的穿越长度，被载入吉尼斯世界纪录。定向穿越管道施工技术是一个多学科，多技术，根据于一体的系统工程，任何部分在施工过程中存在的问题的设备集成，并可能导致整个项目的失败，造成了巨大的损失。而被广泛使用，由于定向钻井，通过建设，使技术已经取得了长足的进步和发展的方向。硬石国际各种施工方法，如泥浆马达，震荡的顶部，双管钻进的建设。广泛采用PLC控制，电液比例控制技术，负荷传感系统，具有特殊的结构设计软件的使用。

四、管道超声内检测技术现状

1、相控阵超声波检测器

美国GE公司研制的超声波相控阵管道内检测器于2005年开始应用于油气管道内检测，目前已检测管道长度4700km，该检测器包括两种不同的检测模式：超声波壁厚测量模式和超声腐蚀检测模式，适用于管径610～660mm的成品油管道。该检测器有别于传统检测器的单探头入射管道表面检测的方法，采用探头组的形式来布置探头环，几个相邻并非常靠近(间距左右)的探头组成一个探头组，一个探头组内的探头按照一定的时间顺序来激发并产生超声波脉冲，而该激发顺序决定了产生的超声波脉冲的方向和角度，因此控制一个探头组内不同探头的激发顺序就可以产生聚焦的超声波脉冲。检测器包括3个探头环、44个探头组，每个探头环提供一种检测模式，可根据不同的管道检测需求来确定探头环。

该检测器与其他内检测器相同，包括清管器、电源、相控阵传感器、数据处理和储存模块4部分。清管器位于整个检测器的头部并装有聚氨酯皮碗，一方面负责清管以确保检测精度，另一方面起密封作用，使得检测器可以在前后压力差的作用下驱动前进。探头仓由3个独立的探头环组成，每个探头环的探头布置都能实现超声波信号周向全覆盖。检测器能够实现长25mm、深1mm的裂纹检测，检测准确率超过90%;最小检测腐蚀面积10×10mm ，检测精度大于90%。

2、弹性波管道检测器

安桥管道公司管理着世界上最长和最复杂的石油管道网络。其研发的内检测器已经在超过15000km的管道中开展检测。其中基于声波原理的检测器主要有弹性波检测器和超声波管道腐蚀检测器。弹性波检测器的弹性波信号可以在气体管道中传播，主要用于检测管道的焊缝特征，尤其是对长焊缝和应力腐蚀裂纹有较好的检测效果。最新的MKIII弹性波检测器最多可以装备96个超声波传感器，用于在液体祸合条件下发射接收超声波信号，进行管道检测。MKIII弹性波检测器的最大运行距离为150km，相对于二代产品的45km有了很大程度的提高。

五、结束语

综上所述，随着科技水平的快速发展和进步，超声波内检测技术也将更加完善，对于长输管道的检测也将更加准确，为管道的正常使用和安全运行发挥更大的作用。

参考文献

[1]宋生奎，宫敬，才建，等.油气管道内检测技术研究进展[J].石油工程建设，2013，31(2)：10-14.

[2]石永春，刘剑锋，王文军.管道内检测技术及发展趋势[J].工业安全与环保，2012，32(8)：46-48

[3]丁建林.我国油气管道技术和发展趋势.油气储运，2013，22(9)：22-25.

[4]宋生奎，宫敬，才建等.油气管道内检测技术研究进展.石油工程建设，2014，31(2)：11-13.

[5]高福庆.管道内检测技术及发展.石油规划设计，2010，11(1)：78

一文看尽16篇目标检测最新论文

有一个月没更博客了，捂脸 o(￣=￣)d

端午回家休息了几天，6月要加油~

回到正文，HOG是很经典的一种图像特征提取方法，尤其是在行人识别领域被应用的很多。虽然文章是2005年发表在CVPR上的，但近十年来还没有被淹没的文章真的是很值得阅读的研究成果了。

key idea：局部物体的形状和外观可以通过局部梯度或者边缘的密度分布所表示。

主要步骤：

上图为论文中提供的图，个人觉得我在参考资料中列出的那篇博客中给出的图可能更好理解一些。

具体细节：关于每一个过程的详细解释还是在这篇博客中已经写得很清楚了，这里就不再搬运了。

文章中数据集的图像大小均为：64*128, block大小为16x16， block stride为8x8，cell size为8x8，bins=9（直方图等级数）；

获取到每张图的特征维度后，再用线性SVM训练分类器即可。

下图为作者而给出的示例图：

这两篇博客写的都很好，推荐阅读一波。

对于目标检测方向并不是特别熟悉，本文记录一下RCNN, fast-RCNN, faster-RCNN, mask-RCNN这4篇有关目标检测的论文笔记和学习心得。

R-CNN的意思就是Region based，主要思路就是根据一张图像，提取多个region，再将每个Region输入CNN来进行特征的提取。因此RCNN就可以分为 Region proposals , Feature extraction 两个主要部分，提取的特征就可以输入任意一个分类器来进行分类。模型的流程图如下：

在训练的时候，首先使用的是已经训练好的CNN网络作为特征提取器，但是由于预训练是在分类数据集上，因此在应用到检测之前要做finetune。也就是说，为了将用ImageNet数据集训练的网络应用到新的任务（检测），新的数据集（region）上，作者将原来的CNN最后的1000类的fc层，更改为了层，代表待检测的物体的类别数。然后，对于所有的region，如果它和ground truth的重叠率大于，就认为是正类。对于分类器的训练，作者发现选择多大的IoU来区分正类和负类非常关键。并且，对于每一类，都会训练一个分类器。

框的回归非常重要，在对每一个region proposal使用分类器进行打分评价之后，作者使用一个回归器来预测一个新的框作为结果。这个回归器使用的特征是从CNN中提取的特征。回归器的训练中，输入是 region proposal 的和ground truth的，目标是学习一种变换，使得region proposal通过该变换能够接近ground truth。同时，希望这种变换拥有尺度不变性，也就是说尺度变化的话，变换不会改变。如下图所示，每一个regressor会学习一组参数，特征输入是pool 5的特征输出，拟合的目标是。

Fast-RCNN 主要解决的问题是在RCNN中对于每一个region proposal都进行特征提取，会产生非常多的冗余计算，因此可以先对一张图像进行特征提取，再根据region proposal在相应的特征上进行划分得到对应region的特征（映射关系）。这样便可以实现共享计算提高速度，但是与SPPnets不同，SPPnets在一副图像得到对应的特征后，从这张图像的特征上proposal对应的部分，采用空间金字塔池化，如下图：

RoI pooling的方法很简单，类似于空间金字塔pooling，它将proposal部分对应卷积层输出的特征（称之为RoI，因为用于做pooling的特征是 region of interest，也就是我们感兴趣的区域）划分成块，然后对每一块求最大值，最终得到了一个的特征图。可以看出，它只是空间金字塔pooling的一部分。但是SPP-nets的空间金字塔也是可以求导的，那么它到底不好在哪里呢？因为当每一个RoI都可能来源于不同的图像的时候（R-CNN和SPPnets的训练策略是从一个batch的不同图像中，分别挑选一个proposal region），SPPNets的训练非常地低效，这种低效来源于在SPPnets的训练中，每个RoI的感受野都非常地大，很可能对应了原图的整个图像，因此，得到的特征也几乎对应了整张图像，所以输入的图像也就很大。为了提高效率，Fast-RCNN首先选取个图像，再从每个图像上选择个RoI，这样的效率就比从每个图像提取一个RoI提高了倍。

为了将分类和框回归结合起来，作者采用了多任务的loss，来进行联合的训练。具体来说就是将分类的loss和框回归的loss结合起来。网络的设计上非常直接，就是将RoI得到的特征接几个FC层后，分别接不同的输出层。对应于分类部分，特征会接一个softmax输出，用于分类，对于框回归部分，会接一个输出4维特征的输出层，然后分别计算loss，用于反向传播。loss的公式如下：

回归的target可以参考前面的R-CNN部分。

notes

为什么比fast还fast呢？主要原因是在这篇论文中提出了一个新的层：RPN（region proposal networks）用于替代之前的selective search。这个层还可以在GPU上运算来提高速度。 RPN的目的：

为了能够进行region proposal，作者使用了一个小的网络，在基础的卷积层输出的特征上进行滑动，这个网络输入大小为，输入后会映射（用的卷积）为一个固定长度的特征向量，然后接两个并联的fc层（用的卷积层代替），这两个fc层，一个为box-regressoin，一个为box-classification。如下图：

在每一个滑动窗口（可以参考），为了考虑到尽可能多的框的情况，作者设计了anchors来作为region proposal。anchors就是对于每一个滑动窗口的中心位置，在该位置对应的原图位置的基础上，按照不同的尺度，长宽比例框出个不同的区域。然后根据这些anchors对应的原始图像位置以及区域，和ground truth，就可以给每一个滑动窗口的每一个anchor进行标记，也就是赋予label，满足一定条件标记为正类（比如和ground truth重叠大于一个值），一定条件为负类。对于正类，就可以根据ground truth和该anchor对应的原图的区域之间的变换关系（参考前面的R-CNN的框回归），得到回归器中的目标，用于训练。也就是论文中的loss function部分：

自然地，也就要求RPN的两个并联的FC层一个输出2k个值用于表示这k个anchor对应的区域的正类，负类的概率，另一个输出4k个值，用于表示框回归的变换的预测值。

对于整个网络的训练，作者采用了一种叫做 4-step Alternating Training 的方法。具体可以参考论文。

与之前的检测任务稍有不同，mask r-cnn的任务是做instance segmentation。因此，它需要对每一个像素点进行分类。与Faster R-CNN不同，Faster R-CNN对每一个候选框产生两个输出，一个是类别，一个是bounding box的offset。Mask R-CNN新增加了一个输出，作为物体的mask。这个mask类似于ps中的蒙版。

与Faster R-CNN类似的是，Mask R-CNN同样采用RPN来进行Region Proposal。但是在之后，对于每一个RoI，mask r-cnn还输出了一个二值化的mask。

不像类别，框回归，输出都可以是一个向量，mask必须保持一定的空间信息。因此，作者采用FCN来从每个RoI中预测一个的mask。

由于属于像素级别的预测问题，就需要RoI能够在进行特征提取的时候保持住空间信息，至少在像素级别上能够对应起来。因此，传统的取最大值的方法就显得不合适。 RoI Pooling，经历了两个量化的过程：第一个：从roi proposal到feature map的映射过程。第二个：从feature map划分成7*7的bin，每个bin使用max pooling。

为此，作者使用了RoIAlign。如下图

为了避免上面提到的量化过程

可以参考

作者使用ResNet作为基础的特征提取的网络。对于预测类别，回归框，mask的网络使用如下图结构：

整体看完这几篇大佬的论文，虽说没有弄清楚每一个实现细节，但是大体上了解了算法的思路。可以看出，出发点都源于深度神经网络在特征提取上的卓越能力，因此一众大神试图将这种能力应用在检测问题中。从R-CNN中简单地用于特征提取，到为了提高速度减少计算的Fast R-CNN，再到为了将region proposal集成进入整个模型中，并且利用GPU加速的RPN，也就是Faster R-CNN。再到为了应用于instance segmentation任务中，设计的RoIAlign和mask。包括bounding box regression，pooling层的设计，训练方法的选择，loss的设计等等细节，无一不体现了大师们的思考和创造力。可能在我们这些“拿来”者的眼中，这些方法都显得“理所应当”和巧妙，好用，但是，它们背后隐藏的选择和这些选择的思考却更值得我们学习。以及，对待每一个问题，如何设计出合理的解决方案，以及方案的效率，通用性，更是应该我们努力的方向。

原文： Scalable Object Detection using Deep Neural Networks——学术范最近，深度卷积神经网络在许多图像识别基准上取得了最先进的性能，包括ImageNet大规模视觉识别挑战(ILSVRC-2012)。在定位子任务中获胜的模型是一个网络，它预测了图像中每个对象类别的单个边界框和置信度得分。这样的模型捕获了围绕对象的整幅图像上下文，但如果不天真地复制每个实例的输出数量，就无法处理图像中同一对象的多个实例。在这篇论文中提出了一个显著性启发的神经网络检测模型，它预测了一组与类无关的边界框，每个框有一个分数，对应于它包含任何感兴趣的对象的可能性。该模型自然地为每个类处理数量可变的实例，并允许在网络的最高级别上进行跨类泛化。目标检测是计算机视觉的基本任务之一。一个解决这个问题的通用范例是训练在子图像上操作的对象检测器，并在所有的场所和尺度上以详尽的方式应用这些检测器。这一范例被成功地应用于经过区别训练的可变形零件模型(DPM)中，以实现检测任务的最新结果。对所有可能位置和尺度的穷举搜索带来了计算上的挑战。随着类数量的增加，这个挑战变得更加困难，因为大多数方法都训练每个类单独的检测器。为了解决这个问题，人们提出了多种方法，从检测器级联到使用分割提出少量的对象假设。关于对象检测的文献非常多，在本节中，我们将重点讨论利用类不可知思想和解决可伸缩性的方法。许多提出的检测方法都是基于基于部件的模型，最近由于有区别学习和精心设计的特征，已经取得了令人印象深刻的性能。然而,这些方法依赖于在多个尺度上详尽地应用零件模板，这是非常昂贵的。此外，它们在类的数量上是可伸缩的，这对像ImageNet这样的现代数据集来说是一个挑战。为了解决前一个问题，Lampert等人使用分支绑定策略来避免计算所有可能的对象位置。为了解决后一个问题，Song et al.使用了一个低维部件基，在所有对象类中共享。基于哈希算法的零件检测也取得了良好的结果。另一种不同的工作，与我们的工作更接近，是基于对象可以本地化的想法，而不必知道它们的类。其中一些方法建立在自底向上无阶级分割[9]的基础上。通过这种方式得到的片段可以使用自上而下的反馈进行评分。基于同样的动机，Alexe等人使用一种廉价的分类器对对象假设是否为对象进行评分，并以这种方式减少了后续检测步骤的位置数量。这些方法可以被认为是多层模型，分割作为第一层，分割分类作为后续层。尽管它们编码了已证明的感知原理，但我们将表明，有更深入的模型，充分学习可以导致更好的结果。最后，我们利用了DeepLearning的最新进展，最引人注目的是Krizhevsky等人的工作。我们将他们的边界盒回归检测方法扩展到以可扩展的方式处理多个对象的情况。然而，基于dnn的回归已经被Szegedy等人应用到对象掩模中。最后一种方法实现了最先进的检测性能，但由于单个掩模回归的成本，不能扩展到多个类。我们的目标是通过预测一组表示潜在对象的边界盒来实现一种与类无关的可扩展对象检测。更准确地说，我们使用了深度神经网络(DNN)，它输出固定数量的包围盒。此外，它为每个盒子输出一个分数，表示这个盒子包含一个对象的网络信任度。为了形式化上述思想，我们将i-thobject框及其相关的置信度编码为最后一网层的节点值: Bounding box: 我们将每个框的左上角和右下角坐标编码为四个节点值，可以写成vectorli∈R4。这些坐标是归一化的w. r. t.图像尺寸，以实现图像绝对尺寸的不变性。每个归一化坐标是由最后一层的线性变换产生的。 Confidence: 置信度:包含一个对象的盒子的置信度得分被编码为单个节点valueci∈[0,1]。这个值是通过最后一个隐藏层的线性变换产生的，后面跟着一个sigmoid。我们可以组合边界盒位置sli,i∈{1，…K}为一个线性层。同样，我们可以将所有置信区间ci,i∈{1，…K}作为一个s型层的输出。这两个输出层都连接到最后一个隐藏层在推理时，我们的算法生成kbound盒。在我们的实验中，我们使用ek = 100和K= 200。如果需要，我们可以使用置信分数和非最大抑制在推理时获得较少数量的高置信框。这些盒子应该代表对象。因此，它们可以通过后续的分类器进行分类，实现目标检测。由于盒子的数量非常少，我们可以提供强大的分类器。在我们的实验中，我们使用另一个dnn进行分类。我们训练一个DNN来预测每个训练图像的边界框及其置信度得分，以便得分最高的框与图像的groundtruth对象框很好地匹配。假设对于一个特定的训练例子，对象被标记为boundingboxesgj,j∈{1，…，M}。在实践中，pre- dictionary的数量远远大于groundtruthboxm的数量。因此，我们试图只优化与地面真实最匹配的预测框子集。我们优化他们的位置，以提高他们的匹配度，最大化他们的信心。与此同时，我们将剩余预测的置信度最小化，这被认为不能很好地定位真实对象。为了达到上述目的，我们为每个训练实例制定一个分配问题。Wexij∈{0,1}表示赋值:xij= 1，如果第i个预测被赋值给第j个真对象。这项任务的目标可以表示为其中，我们使用标准化边界框坐标之间的el2距离来量化边界框之间的不同。此外，我们希望根据分配x优化盒子的可信度。最大化指定预测的置信度可以表示为最终的损失目标结合了匹配损失和信心损失受式1的约束。α平衡了不同损失条款的贡献。对于每个训练例子，我们通过解决一个最佳的赋值x*的预测到真实的盒子约束执行赋值解决方案。这是二部匹配的一种变体，是一种多项式复杂度匹配。在我们的应用程序中，匹配是非常便宜的——每幅图像中标记的对象的数量少于一打，而且在大多数情况下只有很少的对象被标记。然后，通过反向传播优化网络参数。例如，反向传播算法的一阶导数计算w、r、t、l和c 尽管上述定义的损失在原则上是足够的，但三次修改使其有可能更快地达到更好的准确性。第一个修改是对地面真实位置进行聚类，并找到这样的聚类/质心，我们可以使用这些聚类/质心作为每个预测位置的先验。因此，鼓励学习算法为每个预测位置学习一个残差到一个先验。第二个修改涉及到在匹配过程中使用这些先验:不是将N个groundtruth位置与K个预测进行匹配，而是在K个先验和groundtruth之间找到最佳匹配。一旦匹配完成，就会像之前一样计算目标的置信度。此外，位置预测损失也不变:对于任何一对匹配的(目标，预测)位置，其损失定义为groundtruth和对应于匹配先验的坐标之间的差值。我们把使用先验匹配称为先验匹配，并假设它促进了预测的多样化。需要注意的是，尽管我们以一种与类无关的方式定义了我们的方法，但我们可以将它应用于预测特定类的对象盒。要做到这一点，我们只需要在类的边框上训练我们的模型。此外，我们可以预测每个类的kbox。不幸的是，这个模型的参数数量会随着类的数量线性增长。此外，在一个典型的设置中，给定类的对象数量相对较少，这些参数中的大多数会看到很少有相应梯度贡献的训练示例。因此，我们认为我们的两步过程——首先本地化，然后识别——是一个更好的选择，因为它允许使用少量参数利用同一图像中多个对象类型的数据我们使用的本地化和分类模型的网络架构与[10]使用的网络架构相同。我们使用Adagrad来控制学习速率衰减，128的小批量，以及使用多个相同的网络副本进行并行分布式训练，从而实现更快的收敛。如前所述，我们在定位损失中使用先验——这些是使用训练集上的均值来计算的。我们还使用α = 来平衡局部化和置信度损失。定位器可以输出用于推断的种植区以外的坐标。坐标被映射和截断到最后的图像区域。另外，使用非最大抑制对盒进行修剪，Jaccard相似度阈值为。然后，我们的第二个模型将每个边界框分类为感兴趣的对象或“背景”。为了训练我们的定位器网络，我们从训练集中生成了大约3000万幅图像，并对训练集中的每幅图像应用以下步骤。最后，样品被打乱。为了训练我们的本地化网络，我们通过对训练集中的每一幅图像应用以下步骤，从训练集中生成了大约3000万幅图像。对于每幅图像，我们生成相同数量的平方样本，使样本总数大约为1000万。对于每幅图像，样本被桶状填充，这样，对于0 - 5%、5 - 15%、15 - 50%、50 - 100%范围内的每个比例，都有相同数量的样本，其中被包围框覆盖的比例在给定范围内。训练集和我们大多数超参数的选择是基于过去使用非公开数据集的经验。在下面的实验中，我们没有探索任何非标准数据生成或正则化选项。在所有的实验中，所有的超参数都是通过对训练集。 Pascal Visual Object Classes (VOC)挑战是最常用的对象检测算法基准。它主要由复杂的场景图像组成，其中包含了20种不同的对象类别的边界框。在我们的评估中，我们关注的是2007版VOC，为此发布了一个测试集。我们通过培训VOC 2012展示了结果，其中包含了大约。11000张图片。我们训练了一个100框的定位器和一个基于深度网络的分类器。我们在一个由1000万作物组成的数据集上训练分类器，该数据集重叠的对象至少为 jaccard重叠相似度。这些作物被标记为20个VOC对象类中的一个。•2000万负作物与任何物体盒最多有个Jaccard相似度。这些作物被贴上特殊的“背景”类标签。体系结构和超参数的选择遵循。在第一轮中，定位器模型应用于图像中最大-最小中心方形作物。作物的大小调整到网络输入大小is220×220。单次通过这个网络，我们就可以得到上百个候选日期框。在对重叠阈值为的非最大抑制后，保留评分最高的前10个检测项，并通过21路分类器模型分别通过网络进行分类。最终的检测分数是给定盒子的定位分数乘以分类器在作物周围的最大方形区域上评估的分数的乘积。这些分数通过评估，并用于计算精确查全曲线。首先，我们分析了本地化器在隔离状态下的性能。我们给出了被检测对象的数量，正如Pascal检测标准所定义的那样，与生成的包围框的数量相对比。在图1中，我们展示了使用VOC2012进行训练所获得的结果。此外，我们通过使用图像的最大中心面积(max-center square crop)作为输入以及使用两个尺度(second scale)来给出结果:最大中心面积(max-center crop)的第二个尺度(select3×3windows的大小为图像大小的60%)正如我们所看到的，当使用10个边界框的预算时，我们可以用第一个模型本地化的对象，用第二个模型本地化48%的对象。这显示出比其他报告的结果更好的性能，例如对象度算法达到42%[1]。此外，这个图表显示了在不同分辨率下观察图像的重要性。虽然我们的算法通过使用最大中心作物获得了大量的对象，但当使用更高分辨率的图像作物时，我们获得了额外的提升。进一步，我们用21-way分类器对生成的包围盒进行分类，如上所述。表1列出了VOC 2007的平均精度(APs)。达到的平均AP是，与先进水平相当。注意，我们的运行时间复杂度非常低——我们只使用top10框。示例检测和全精度召回曲线分别如图2和图3所示。值得注意的是，可视化检测是通过仅使用最大中心方形图像裁剪，即使用全图像获得的。然而，我们设法获得了相对较小的对象，例如第二行和第二列的船，以及第三行和第三列的羊。在本工作中，我们提出了一种新的方法来定位图像中的对象，该方法可以预测多个边界框的时间。该方法使用深度卷积神经网络作为基本特征提取和学习模型。它制定了一个能够利用可变数量的groundtruth位置的多箱定位成本。在“一个类一个箱”方法的情况下，对1000个盒子进行非max-suppression，使用与给定图像中感兴趣的DeepMulti-Box方法相同的准则，并学习在未见图像中预测这些位置。我们在VOC2007和ILSVRC-2012这两个具有挑战性的基准上给出了结果，在这两个基准上，所提出的方法具有竞争力。此外，该方法能够很好地预测后续分类器将探测到的位置。我们的结果表明，deepmultibox的方法是可扩展的，甚至可以在两个数据集之间泛化，就能够预测感兴趣的定位，甚至对于它没有训练的类别。此外，它能够捕获同一类物体的多种情况，这是旨在更好地理解图像的算法的一个重要特征。在未来，我们希望能够将定位和识别路径折叠到一个单一的网络中，这样我们就能够在一个通过网络的一次性前馈中提取位置和类标签信息。即使在其当前状态下，双通道过程(本地化网络之后是分类网络)也会产生5-10个网络评估，每个评估的速度大约为1个CPU-sec(现代机器)。重要的是，这个数字并不与要识别的类的数量成线性关系，这使得所提出的方法与类似dpm的方法非常有竞争力。

医学图像目标检测最新发展论文

医学影像技术论文范文

在日常学习、工作生活中，大家都经常接触到论文吧，论文是学术界进行成果交流的工具。你写论文时总是无从下笔？以下是我帮大家整理的医学影像技术论文，欢迎阅读，希望大家能够喜欢。

【摘要】医学图像在临床应用或科研中的物理问题、算法和软硬件设计操作等，是医学物理学的重要分支。医学影像是人体信息的载体，可用于教学和科研、治疗和疾病诊断。

治疗中的医学影像可以用于制定治疗计划、在治疗过程实施影像监督，以及通过对治疗监督是采集的数据的图像重建实现对治疗计划的验证。当前医学影像的世界前沿是功能成像

主要内容是对人的生理功能和心理功能成像。这些成像方法和技术的发展以及在医疗界中的广泛使用，必将引起医学领域研究和新的治疗方案的革命。

【关键词】医学影像；影响物理；成像技术

1引言

人体成像包括对健康人的成像和对病人的成像，对于前者的成像主要用于科研和教学，后者主要用于医学临床诊断和治疗。医学影像物理和技术是医学物理学的重要分支，研究的对象包括了所有人体成像。

目前临床广泛使用的模态按照成像时使用的物质波不同，分为X射线成像、γ射线成像、磁共振成像和超声成像。

2对目前各种医学成像模态现状的分析

射线成像

X射线成像模态分为平面X射线成像和断层成像。人体不同器官和组织对X射线的吸收可以用组织密度进行表征，因此，可以利用平面x射线、x射线照相术对人体内脏器官和骨骼的损伤和病灶进行诊断和定位

同时也把胶片带进了医学领域。随着x射线显像增强技术的发展，x射线的血管造影术和其他脏器的专用x线机相继诞生，扩大了x射线成像的应用范围。平面x射线成像的未来发展方向是数字化的x光机技术其中，x线机是全世界的发展方向，但是其价格使得大多数用户望而怯步。

作为传统影像技术中最为成熟的成像模式之一的x射线断层成像，其速度对于心脏动态成像完全没有问题，加上显像增强剂，还可以对用于血管病变及其血脑屏障是否被病灶破坏进行检查，属于功能成像的范畴。当前，三维控件x射线断层成像的实验室样机已经问世，将会为x射线成像带来新的生命力。

核磁共振成像

目前，各种各样的核磁共振设备产品已经大量进入市场。核磁共振成像集中体现了各种高新技术在医学成像设备中的应用。目前核磁共振主要应用包括人脑认知功能成像，用于揭示大脑工具机制的认知心理实验测量。

核医学成像

核医学成像包括平面和断层成像两种方式。目前，以单光子计算机断层成像和正电子断层成像为主，为动物正电子断层成像主要是用于基础研究，而平面的γ相机已经处于被淘汰的水平。

核医学成像设备可以定量地检测到由于基因突变而引起的大分子运动紊乱继而引起的脏器功能变化，例如代谢紊乱、血流变化等。这是其他设备如超声波检查不可能完成的任务。

这就是临床医学上所说的早期诊断，核医学影像设备能够快速发展归功于此。但是核医学成像存在空间分辨率差、病理和周围组织的相互关系很难准确定位的确定，因此，还需要医学物理工作的不懈努力。

超声波成像

超声波是非电离辐射的成像模态，以二维成像的功能为主，也包括平面和断层成像两类产品。超声波成像由于其安全可靠、价格低廉，多以在诊断、介入治疗和预后影像检测中得到发展。

目前，超声波设备已有超过x射线成像的势头。同样，超声波成像也存在一定的缺点，如图像对比度差、信噪比不好、图像的重复性依赖于操作人员等。

3关于医学软件问题

基本情况分析

成像的硬件设备要完成功能离不开医学软件的支持，对于这些医学软件按照和硬件设备的关系，可分为三个层次：

第一层，工作和硬件紧密结合的软件。主要功能是负责成像设备的运动控制，对数据的采集，图像预处理和重建，完成数据分析。

第二层，主要负责对医疗器械产生的数据进行分析、处理软件。这种软件的应用需要来自医学物理人员，软件编程人员和医生三方的合作，目前，由于我国还没有建立这种三方合作机制，这类软件应用情况明显滞后。

第三层，主要功能是完成医学信息的整合的软件，用于医疗过程中医疗信息，医学工作的管理。例如PACS。这种软件也需要医生的参与，但是并没有依赖性。

PACS是医疗发展信息化的体现，是医学影像技术集成管理和开拓影像资源应用范围的重要技术手段。PACS将医学影像中的各种软件和图像工作站连接起来，使之成为局域网中的节点，实现了资源的共享。不同科室的医生在完成对病人的信息收集和诊断后可以完成信息的录入。还可以利用商业设备上采集的数据运用于病人的诊疗中，结合数据和医学影像，对诊断信息综合处理，以此提高诊断的准确率。

4医学影像物理和技术学科今后的发展

虽然存在各种不同的医学影像模态，但是目标只有一个，即为了更好的进行医学研究诊断，随着物理和计算机技术的发展，医学影像技术会随之提高。为了更好的为医疗服务，在今后的发展中，医学影响物理和技术学科还需在以下几方面继续努力。

第一，用于成像的物质波产生装置还需要不断进行提升，为更好的满足成像需求，在提高波源产生物质波的同时，还需要改变物质波的束流品质；

第二，将物质波和人体组织发生相互作用的规律模型化，为减少误诊率和定位误差，把模型参数的最佳化，改善从影像中提取信息的质量和速度。同时努力消除探测中的噪声和伪影；

第三，把探测的信号收集，放大、成形实现数字化；

第四，为满足影像诊断和治疗中的监督需要，高质量的实现图像重建和显示等。

在科学技术方面，开展医学影像在脑功能成像研究中的应用、临床诊断中的应用等，有利于拓宽医学影像的市场。

5结语

本文介绍了当今主流的几种医学成像技术，对各种成像方式的优缺点进行了阐述，对日后医学影像物理和技术的发展提出了自己的看法，希望能为那些为医疗服务的工作者们提供一些参考。随着医学影像物理和技术的不断进步，医疗服务行业的科学化加速发展。

参考文献

[1]黄浩，施红，陈伟炜，俞允，林多，许茜，俞向梅，洪全兴，魏国强.医学影像技术学专业教育的问题与思考[J].教育教学论坛.2013（11）

[2]彭文献，黄敏，罗敏.基于岗位需求培养医学影像技术学生专业意识的探讨[J].浙江医学教育.2011（03）

【摘要】随着科学技术的进步，医学影像技术在医疗领域中的地位将更为重要。本文谈了医学影像技术发展史，总结了近年来取得的新进展。

【关键词】医学影像技术

医学影像技术主要是应用工程学的概念及方法，并基于工程学原理发展起来的一种技术，其实医学影像技术还是医学物理的重要组成部分，它是用物理学的概念和方法及物理原理发展起来的先进技术手段。医学影像信息包括传统X线、CT、MRI、超声、同位素、电子内窥镜和手术摄影等影像信息。它们是窥测人体内部各组织，脏器的形态，功能及诊断疾病的重要方法。随着医疗卫生事业的.发展，以胶片为主要方式的显示、存储、传递X-ray摄像技术已不能满足临床诊断和治疗发展的需求，医疗设备的数字化要求日益强烈，全数字化放射学、图像导引和远程放射医学将是放射医学影像发展的必然趋势。

1 传统摄影技术在摸索中进行

计算机X线摄影

X射线是发展最早的图像装置。它在医学上的应用使医生能观察到人体内部结构，这为医生进行疾病诊断提供了重要的信息。在1895年后的几十年中，X射线摄影技术有不少的发展，包括使用影像增强管、增感屏、旋转阳极X射线管及断层摄影等。但是，由于这种常规X射线成像技术是将三维人体结构显示在二维平面上，加之其对软组织的诊断能力差，使整个成像系统的性能受到限制。从50年代开始，医学成像技术进入一个革命性的发展时期，新的成像系统相继出现。70年代早期，由于计算机断层技术的出现使飞速发展的医学成像技术达到了一个高峰。到整个80年代，除了X射线以外，超声、磁共振、单光子、正电子等的断层成像技术和系统大量出现。这些方法各有所长，互相补充，能为医生做出确切诊断，提供愈来愈详细和精确的信息。在医院全部图像中X射线图像占80%，是目前医院图像的主要来源。在本世纪50年代以前，X射线机的结构简单，图像分辨率也较低。在50年代以后，分辨率与清晰度得到了改善，而病人受照射剂量却减小了。时至今日，各种专用X射线机不断出现，X光电视设备正在逐步代替常规的X射线透视设备，它既减轻了医务人员的劳动强度，降低了病人的X线剂量；又为数字图像处理技术的应用创造了条件。随着计算机的发展数字成像技术越来越广泛地代替传统的屏片摄影现阶段，用于数字摄影的探测系统有以下几种： (1)存储荧光体增感屏[计算机X射线摄影系统(computer )]。

(2)硒鼓探测器。(3)以电荷耦合技术(charge Coupled )为基础的探测器。(4)平板探测器(Flat panel Detector)a：直接转换(非晶体硒)b：非直接转换(闪烁晶体)。这些系统实现了自动化、遥控化和明室化，减少了操作者的辐射损伤。

X-CT

CT的问世被公认为伦琴发现X射线以来的重大突破，因为他标志了医学影像设备与计算机相结合的里程碑。这种技术有两种模式，一种是所谓“先到断层成像”(FAT)，另一种模式是“光子迁移成像”(PMI)。

磁共振成像

核磁共振成像，现称为磁共振成像。它无放射线损害，无骨性伪影，能多方面、多参数成像，有高度的软组织分辨能力，不需使用对比剂即可显示血管结构等独特的优点。

数字减影血管造影

它是利用计算机系统将造影部位注射造影剂的透视影像转换成数字形式贮存于记忆盘中，称作蒙片。然后将注入造影剂后的造影区的透视影像也转换成数字，并减去蒙片的数字，将剩余数字再转换成图像，即成为除去了注射造影剂前透视图像上所见的骨骼和软组织影像，剩下的只是清晰的纯血管造影像。

2 数字化摄影技术

数字X射线摄影的成像技术包括成像板技术、平行板检测技术和采用电荷耦合器或CMOS器件以及线扫描等技术。成像板技术是代替传统的胶片增感屏来照相，然后记录于胶片的一种方法。平行板检测技术又可分为直接和间接两种结构类型。直接FPT结构主要是由非品硒和薄膜半导体阵列构成的平板检测器。间接FPT结构主要是由闪烁体或荧光体层加具有光电二极管作用的非品硅层在加TFT阵列构成的平板检测器。电荷耦合器或CMOS器件以及线扫描等技术结构上包括可见光转换屏，光学系统和CCD或CMOS。

3 成像的快捷阅读

由于成像方法的改进，除了在成像质量方面有明显提高外，图像数量也急剧增加。例如随着多层CT的问世，每次CT检查的图像可多达千幅以上，因此，无法想象用传统方法能读取这些图像中蕴含的动态信息。这时在显示器上进行的“软阅读”正在逐渐显示出其无可比拟的优越性。软拷贝阅读是指在工作站图像显示屏上观察影像，就X线摄影而言这种阅读方式能充分利用数字影像大得多的动态范围，获取丰富的诊断信息。

4 PACS的广阔发展空间

随着计算机和网络技术的飞速发展，现有医学影像设备延续了几十年的数据采集和成像方式，已经远远无法满足现代医学的发展和临床医生的需求。PACS系统应运而生。PACS系统是图像的存储、传输和通讯系统，主要应用于医学影像图像和病人信息的实时采集、处理、存储、传输，并且可以与医院的医院信息管理系统放射信息管理系统等系统相连，实现整个医院的无胶片化、无纸化和资源共享，还可以利用网络技术实现远程会诊，或国际间的信息交流。PACS系统的产生标志着网络影像学和无胶片时代的到来。完整的PACS系统应包含影像采集系统，数据的存储、管理，数据传输系统，影像的分析和处理系统。数据采集系统是整个PACS系统的核心，是决定系统质量的关键部分，可将各种不同成像系统生成的图象采入计算机网络。由于医学图像的数据量非常大，数据存储方法的选择至关重要。光盘塔、磁带库、磁盘陈列等都是目前较好的存储方法。数据传输主要用于院内的急救、会诊，还有可以通过互联网、微波等技术，以数据的远距离传输，实现远程诊断。影像的分析和处理系统是临床医生、放射科医生直接使用的工具，它的功能和质量对于医生利用临床影像资源的效率起了决定作用。综上所述，PACS技术可分为三个阶段，(1)用户查找数据库；(2)数据查找设备；(3)图像信息与文本信息主动寻找用户。

5 技术——分子影像

随着医学影像技术的飞速发展，在今天已具有显微分辨能力，其可视范围已扩展至细胞、分子水平，从而改变了传统医学影像学只能显示解剖学及病理学改变的形态显像能力。由于与分子生物学等基础学科相互交叉融合，奠定了分子影像学的物质基础。Weissleder氏于1999年提出了分子影像学的概念：活体状态下在细胞及分子水平应用影像学对生物过程进行定性和定量研究。

分子成像的出现，为新的医学影像时代到来带来曙光。基因表达、治疗则为彻底治愈某些疾病提供可能，因此目前全世界都在致力于研究、开创分子影像与基因治疗，这就是21世纪的影像学。新的医学影像的观察要超出目前的解剖学、病理学概念，要深入到组织的分子、原子中去。其关键是借助神奇的探针--即分子探针。到目前为止，分子影像学的成像技术主要包括MRI、核医学及光学成像技术。一些有识之士认为；由于诊治兼备的介入放射学已深入至分子生物学的层面，因此，分子影像学应包括分子水平的介入放射学研究。

6 学科的交叉结合

交叉学科、边缘学科是当今科学发展的趋势。影像技术学最邻近的学科应为影像诊断学。前者致力于解决信息的获取、存储、传输、管理及研发新的技术方法；后者则将信息与知识、经验结合，着重于信息的内容，根据影像做出正常解剖结构的辨认及病变的诊断。两者相辅相成，互为依托。所以，影像技术学的发展离不开影像诊断学更密切地沟通与结合将为提高、拓展原有成像方式及开辟新的成像方式做出有益的贡献。医用影像诊断装置用于详细地观察人体内部各器官的结构，找出病灶的位置毫克大小，有的还可以进行器

官功能的判断。还有医用影像诊断装备情况，已成了衡量医院现代化水平的标志。

7 浅谈医学影像技术的下一个热点

医疗保健事业在经济上的窘迫使得90年代以来，成为一个没有大规模推广一种新的影像技术的、相对沉寂的时期，延续了一些现有影像技术的发展，使得他们中至今还没有一种影像技术能对影像学产生巨大的影响。随着科技的发展，最近逐渐发展起来的一批有希望的影像技术。如：磁共振谱(MRS)，正电子发射成像(PET)单光子发射成像(SPECT)，阻抗成像(EIT)和光学成像(OCT或NRI)。他们有可能很快成为大规模应用的影像技术，将为脑、肺、乳房及其他部位的成像提供新的信息。

磁源成像

人体体内细胞膜内外的离子运动可形成生物电流。这种生物电流可产生磁现象，检测心脏或脑的生物电流产生的磁场可以得到心磁图或脑磁图。这类磁现象可反映出电子活动发生的深度，携带有人体组织和器官的大量信息。

PET和SPECT

单光子发射成像(SPECT)和正电子成像(PET)是核医学的两种CT技术。由于它们都是接受病人体内发射的射线成像，故统称为发射型计算机断层成像(ECT)。ECT依据核医学的放射性示踪原理进行体内诊断，要在人体中使用放射性核素。ECT存在的主要问题是空间分辨率低。最近的技术发展可能促进推广ECT的应用。

阻抗成像(EIT)

EIT是通过对人体加电压，测量在电极间流动的电流，得到组织电导率变化的图像。目的在于形成对体内某点阻抗的估计。这种技术的优点是，所采用的电流对人体是无害的，因而对成像对象无任何限制。这种技术的时间分辨率很好，因而可连续监测实际的应用，已实现以视频帧速的医用EIT的实验样机。

光学成像(OTC或NIR)

近期的一些实质性的进展表明，光学成像有可能在最近几年内发展成为一种能真正用于临床的影像设备。它的优点是：光波长的辐射是非离子化的，因而对人体是无伤害的，可重复曝光；它们可区分那些在光波长下具有不同吸收与散射，但不能由其它技术识别的软组织；天然色团所特有的吸收使得能够获得功能信息。它正在开辟它的临床领域。

MRS

MRS是一种无创研究人体组织生理化的极有用的工具。它所得到的生化信息可与人体组织代谢相关联，并表明它正常组织的方式有差别。目前MRS还没有常规用于临床，但已有大量技术正在进行正式适用。

上述的几个先进的技术，究竟哪一个能成为医学影像技术的热点，我们认为应要有最大效益、安全和经济是最为重要的。在逝去的20世纪，医学影像技术经历了从孕育、成长到发展的过程，回顾过去可以断言它在防治人类疾病及延长平均寿命方面是功不可没的。在一切“以人类为本”的21世纪中，人们将继续用医学影像技术来为人们的健康服务。

论文名称：Rich feature hierarchies for accurate object detection and semantic segmentation 提出时间：2014年论文地址：针对问题：从Alexnet提出后，作者等人思考如何利用卷积网络来完成检测任务，即输入一张图，实现图上目标的定位（目标在哪）和分类（目标是什么）两个目标，并最终完成了RCNN网络模型。创新点： RCNN提出时，检测网络的执行思路还是脱胎于分类网络。也就是深度学习部分仅完成输入图像块的分类工作。那么对检测任务来说如何完成目标的定位呢，作者采用的是Selective Search候选区域提取算法，来获得当前输入图上可能包含目标的不同图像块，再将图像块裁剪到固定的尺寸输入CNN网络来进行当前图像块类别的判断。参考博客：。论文题目：OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks 提出时间：2014年论文地址：针对问题：该论文讨论了，CNN提取到的特征能够同时用于定位和分类两个任务。也就是在CNN提取到特征以后，在网络后端组织两组卷积或全连接层，一组用于实现定位，输出当前图像上目标的最小外接矩形框坐标，一组用于分类，输出当前图像上目标的类别信息。也是以此为起点，检测网络出现基础主干网络(backbone)+分类头或回归头（定位头）的网络设计模式雏形。创新点：在这篇论文中还有两个比较有意思的点，一是作者认为全连接层其实质实现的操作和1x1的卷积是类似的，而且用1x1的卷积核还可以避免FC对输入特征尺寸的限制，那用1x1卷积来替换FC层，是否可行呢？作者在测试时通过将全连接层替换为1x1卷积核证明是可行的；二是提出了offset max-pooling，也就是对池化层输入特征不能整除的情况，通过进行滑动池化并将不同的池化层传递给后续网络层来提高效果。另外作者在论文里提到他的用法是先基于主干网络+分类头训练，然后切换分类头为回归头，再训练回归头的参数，最终完成整个网络的训练。图像的输入作者采用的是直接在输入图上利用卷积核划窗。然后在指定的每个网络层上回归目标的尺度和空间位置。参考博客：论文题目：Scalable Object Detection using Deep Neural Networks 提出时间：2014年论文地址：针对问题：既然CNN网络提取的特征可以直接用于检测任务（定位+分类），作者就尝试将目标框（可能包含目标的最小外包矩形框）提取任务放到CNN中进行。也就是直接通过网络完成输入图像上目标的定位工作。创新点：本文作者通过将物体检测问题定义为输出多个bounding box的回归问题. 同时每个bounding box会输出关于是否包含目标物体的置信度, 使得模型更加紧凑和高效。先通过聚类获得图像中可能有目标的位置聚类中心，（800个anchor box）然后学习预测不考虑目标类别的二分类网络，背景or前景。用到了多尺度下的检测。参考博客：论文题目：DeepBox: Learning Objectness with Convolutional Networks 提出时间：2015年ICCV 论文地址：主要针对的问题：本文完成的工作与第三篇类似，都是对目标框提取算法的优化方案，区别是本文首先采用自底而上的方案来提取图像上的疑似目标框，然后再利用CNN网络提取特征对目标框进行是否为前景区域的排序；而第三篇为直接利用CNN网络来回归图像上可能的目标位置。创新点：本文作者想通过CNN学习输入图像的特征，从而实现对输入网络目标框是否为真实目标的情况进行计算，量化每个输入框的包含目标的可能性值。参考博客：论文题目：AttentionNet: AggregatingWeak Directions for Accurate Object Detection 提出时间：2015年ICCV 论文地址：主要针对的问题：对检测网络的实现方案进行思考，之前的执行策略是，先确定输入图像中可能包含目标位置的矩形框，再对每个矩形框进行分类和回归从而确定目标的准确位置，参考RCNN。那么能否直接利用回归的思路从图像的四个角点，逐渐得到目标的最小外接矩形框和类别呢？创新点：通过从图像的四个角点，逐步迭代的方式，每次计算一个缩小的方向，并缩小指定的距离来使得逐渐逼近目标。作者还提出了针对多目标情况的处理方式。参考博客：论文题目：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 提出时间：2014年论文地址：针对问题：如RCNN会将输入的目标图像块处理到同一尺寸再输入进CNN网络，在处理过程中就造成了图像块信息的损失。在实际的场景中，输入网络的目标尺寸很难统一，而网络最后的全连接层又要求输入的特征信息为统一维度的向量。作者就尝试进行不同尺寸CNN网络提取到的特征维度进行统一。创新点：作者提出的SPPnet中，通过使用特征金字塔池化来使得最后的卷积层输出结果可以统一到全连接层需要的尺寸，在训练的时候，池化的操作还是通过滑动窗口完成的，池化的核宽高及步长通过当前层的特征图的宽高计算得到。原论文中的特征金字塔池化操作图示如下。参考博客：论文题目：Object detection via a multi-region & semantic segmentation-aware CNN model 提出时间：2015年论文地址：针对问题：既然第三篇论文multibox算法提出了可以用CNN来实现输入图像中待检测目标的定位，本文作者就尝试增加一些训练时的方法技巧来提高CNN网络最终的定位精度。创新点：作者通过对输入网络的region进行一定的处理（通过数据增强，使得网络利用目标周围的上下文信息得到更精准的目标框）来增加网络对目标回归框的精度。具体的处理方式包括：扩大输入目标的标签包围框、取输入目标的标签中包围框的一部分等并对不同区域分别回归位置，使得网络对目标的边界更加敏感。这种操作丰富了输入目标的多样性，从而提高了回归框的精度。参考博客：论文题目：Fast-RCNN 提出时间：2015年论文地址：针对问题： RCNN中的CNN每输入一个图像块就要执行一次前向计算，这显然是非常耗时的，那么如何优化这部分呢？创新点：作者参考了SPPNet（第六篇论文），在网络中实现了ROIpooling来使得输入的图像块不用裁剪到统一尺寸，从而避免了输入的信息丢失。其次是将整张图输入网络得到特征图，再将原图上用Selective Search算法得到的目标框映射到特征图上，避免了特征的重复提取。参考博客：论文题目：DeepProposal: Hunting Objects by Cascading Deep Convolutional Layers 提出时间：2015年论文地址：主要针对的问题：本文的作者观察到CNN可以提取到很棒的对输入图像进行表征的论文，作者尝试通过实验来对CNN网络不同层所产生的特征的作用和情况进行讨论和解析。创新点：作者在不同的激活层上以滑动窗口的方式生成了假设，并表明最终的卷积层可以以较高的查全率找到感兴趣的对象，但是由于特征图的粗糙性，定位性很差。相反，网络的第一层可以更好地定位感兴趣的对象，但召回率降低。论文题目：Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks 提出时间：2015年NIPS 论文地址：主要针对的问题：由multibox（第三篇）和DeepBox（第四篇）等论文，我们知道，用CNN可以生成目标待检测框，并判定当前框为目标的概率，那能否将该模型整合到目标检测的模型中，从而实现真正输入端为图像，输出为最终检测结果的，全部依赖CNN完成的检测系统呢？创新点：将当前输入图目标框提取整合到了检测网络中，依赖一个小的目标框提取网络RPN来替代Selective Search算法，从而实现真正的端到端检测算法。参考博客：

目标检测论文的创新点

|声明：遵循CC BY-SA版权协议建立在YOLOv1的基础上，经过Joseph Redmon等的改进，YOLOv2和YOLO9000算法在2017年CVPR上被提出，并获得最佳论文提名，重点解决YOLOv1召回率和定位精度方面的误差。在提出时，YOLOv2在多种监测数据集中都要快过其他检测系统，并可以在速度与精确度上进行权衡。 YOLOv2采用Darknet-19作为特征提取网络，增加了批量标准化（Batch Normalization）的预处理，并使用224×224和448×448两阶段训练ImageNet，得到预训练模型后fine-tuning。相比于YOLOv1是利用FC层直接预测Bounding Box的坐标，YOLOv2借鉴了FSR-CNN的思想，引入Anchor机制，利用K-Means聚类的方式在训练集中聚类计算出更好的Anchor模板，在卷积层使用Anchor Boxes操作，增加Region Proposal的预测，同时采用较强约束的定位方法，大大提高算法召回率。同时结合图像细粒度特征，将浅层特征与深层特征相连，有助于对小尺寸目标的检测。下图所示是YOLOv2采取的各项改进带了的检测性能上的提升： YOLO9000 的主要检测网络也是YOLO v2，同时使用WordTree来混合来自不同的资源的训练数据，并使用联合优化技术同时在ImageNet和COCO数据集上进行训练，目的是利用数量较大的分类数据集来帮助训练检测模型，因此，YOLO 9000的网络结构允许实时地检测超过9000种物体分类，进一步缩小了检测数据集与分类数据集之间的大小代沟。下面将具体分析YOLOv2的各个创新点: BN概述：对数据进行预处理（统一格式、均衡化、去噪等）能够大大提高训练速度，提升训练效果。BN正是基于这个假设的实践，对每一层输入的数据进行加工。 BN是2015年Google研究员在论文《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》一文中提出的，同时也将BN应用到了2014年的GoogLeNet上，也就是Inception-v2。 BN层简单讲就是对网络的每一层的输入都做了归一化，这样网络就不需要每层都去学数据的分布，收敛会更快。YOLOv1算法（采用的是GoogleNet网络提取特征）是没有BN层的，而在YOLOv2中作者为每个卷积层都添加了BN层。使用BN对网络进行优化，让网络提高了收敛性，同时还消除了对其他形式的正则化（regularization）的依赖，因此使用BN后可以从模型中去掉Dropout，而不会产生过拟合。 BN优点：神经网络每层输入的分布总是发生变化，加入BN，通过标准化上层输出，均衡输入数据分布，加快训练速度，因此可以设置较大的学习率（Learning Rate）和衰减（Decay）；通过标准化输入，降低激活函数（Activation Function）在特定输入区间达到饱和状态的概率，避免梯度弥散（Gradient Vanishing）问题；输入标准化对应样本正则化，BN在一定程度上可以替代 Dropout解决过拟合问题。 BN算法：在卷积或池化之后，激活函数之前，对每个数据输出进行标准化，方式如下图所示：公式很简单，前三行是 Batch内数据归一化（假设一个Batch中有每个数据），同一Batch内数据近似代表了整体训练数据。第四行引入了附加参数 γ 和 β，此二者的取值算法可以参考BN论文，在此不再赘述。 fine-tuning：用已经训练好的模型，加上自己的数据集，来训练新的模型。即使用别人的模型的前几层，来提取浅层特征，而非完全重新训练模型，从而提高效率。一般新训练模型准确率都会从很低的值开始慢慢上升，但是fine-tuning能够让我们在比较少的迭代次数之后得到一个比较好的效果。 YOLO模型分为两部分，分类模型和检测模型，前者使用在ImageNet上预训练好的模型，后者在检测数据集上fine-tuning。 YOLOv1在预训练时采用的是224*224的输入（在ImageNet数据集上进行），然后在检测的时候采用448*448的输入，这会导致从分类模型切换到检测模型的时候，模型还要适应图像分辨率的改变。 YOLOv2则将预训练分成两步：先用224*224的输入在ImageNet数据集训练分类网络，大概160个epoch（将所有训练数据循环跑160次）后将输入调整到448*448，再训练10个epoch（这两步都是在ImageNet数据集上操作）。然后利用预训练得到的模型在检测数据集上fine-tuning。这样训练得到的模型，在检测时用448*448的图像作为输入可以顺利检测。 YOLOv1将输入图像分成7*7的网格，每个网格预测2个Bounding Box，因此一共有98个Box，同时YOLOv1包含有全连接层，从而能直接预测Bounding Boxes的坐标值，但也导致丢失较多的空间信息，定位不准。 YOLOv2首先将YOLOv1网络的FC层和最后一个Pooling层去掉，使得最后的卷积层可以有更高分辨率的特征，然后缩减网络，用416*416大小的输入代替原来的448*448，使得网络输出的特征图有奇数大小的宽和高，进而使得每个特征图在划分单元格（Cell）的时候只有一个中心单元格（Center Cell）。为什么希望只有一个中心单元格呢？由于图片中的物体都倾向于出现在图片的中心位置，特别是比较大的物体，所以有一个单元格单独位于物体中心的位置用于预测这些物体。 YOLOv2通过引入Anchor Boxes，通过预测Anchor Box的偏移值与置信度，而不是直接预测坐标值。YOLOv2的卷积层采用32这个值来下采样图片，所以通过选择416*416用作输入尺寸最终能输出一个13*13的特征图。若采用FSRCNN中的方式，每个Cell可预测出9个Anchor Box，共13*13*9=1521个（YOLOv2确定Anchor Boxes的方法见是维度聚类，每个Cell选择5个Anchor Box）。在FSRCNN中，以一个51*39大小的特征图为例，其可以看做一个尺度为51*39的图像，对于该图像的每一个位置，考虑9个可能的候选窗口：3种面积3种比例。这些候选窗口称为Anchor Boxes。下图示出的是51*39个Anchor Box中心，以及9种Anchor Box示例。 YOLOv1和YOLOv2特征图数据结构： YOLOv1：S*S* (B*5 + C) => 7*7（2*5+20）其中B对应Box数量，5对应边界框的定位信息（w,y,w,h）和边界框置信度（Confidience）。分辨率是7*7，每个Cell预测2个Box，这2个Box共用1套条件类别概率（1*20）。 YOLOv2：S*S*K* (5 + C) => 13*13*9（5+20）分辨率提升至13*13，对小目标适应性更好，借鉴了FSRCNN的思想，每个Cell对应K个Anchor box（YOLOv2中K=5），每个Anchor box对应1组条件类别概率（1*20）。聚类：聚类是指事先没有“标签”而通过某种成团分析找出事物之间存在聚集性原因的过程。即在没有划分类别的情况下，根据数据相似度进行样本分组。在FSR-CNN中Anchor Box的大小和比例是按经验设定的，然后网络会在训练过程中调整Anchor Box的尺寸，最终得到准确的Anchor Boxes。若一开始就选择了更好的、更有代表性的先验Anchor Boxes，那么网络就更容易学到准确的预测位置。 YOLOv2使用K-means聚类方法类训练Bounding Boxes，可以自动找到更好的宽高维度的值用于一开始的初始化。传统的K-means聚类方法使用的是欧氏距离函数，意味着较大的Anchor Boxes会比较小的Anchor Boxes产生更多的错误，聚类结果可能会偏离。由于聚类目的是确定更精准的初始Anchor Box参数，即提高IOU值，这应与Box大小无关，因此YOLOv2采用IOU值为评判标准，即K-means 采用的距离函数（度量标准）为： d(box,centroid) = 1 - IOU(box,centroid) 如下图，左边是聚类的簇个数和IOU的关系，两条曲线分别代表两个不同的数据集。分析聚类结果并权衡模型复杂度与IOU值后，YOLOv2选择K=5，即选择了5种大小的Box 维度来进行定位预测。其中紫色和灰色也是分别表示两个不同的数据集，可以看出其基本形状是类似的。更重要的是，可以看出聚类的结果和手动设置的Anchor Box位置和大小差别显著——结果中扁长的框较少，而瘦高的框更多（更符合行人的特征）。 YOLOv2采用的5种Anchor的Avg IOU是61，而采用9种Anchor Boxes的Faster RCNN的Avg IOU是，也就是说本文仅选取5种box就能达到Faster RCNN的9中box的效果。选择值为9的时候，AVG IOU更有显著提高。说明K-means方法的生成的boxes更具有代表性。直接对Bounding Boxes求回归会导致模型不稳定，其中心点可能会出现在图像任何位置，有可能导致回归过程震荡，甚至无法收敛，尤其是在最开始的几次迭代的时候。大多数不稳定因素产生自预测Bounding Box的中心坐标（x,y）位置的时候。 YOLOv2的网络在特征图（13*13）的每一个单元格中预测出5个Bounding Boxes（对应5个Anchor Boxes），每个Bounding Box预测出5个值（tx,ty,tw,th,t0），其中前4个是坐标偏移值，t0是置信度结果（类似YOLOv1中的边界框置信度Confidence）。YOLOv2借鉴了如下的预测方式，即当Anchor Box的中心坐标和宽高分别是（xa,ya）和（wa,wh）时，Bounding Box坐标的预测偏移值（tx,ty,tw,th）与其坐标宽高（x,y,w,h）的关系如下： tx = (x-xa)/wa ty= (y-ya)/ha tw = log(w/wa) th = log(h/ha) 基于这种思想，YOLOv2在预测Bounding Box的位置参数时采用了如下强约束方法：上图中，黑色虚线框是Anchor Box，蓝色矩形框就是预测的Bounding Box结果，预测出的Bounding Box的坐标和宽高为（bx,by）和（bw,bh），计算方式如图中所示，其中：对每个Bounding Box预测出5个值（tx,ty,tw,th,t0），Cell与图像左上角的横纵坐标距离为（cx,cy），σ定义为sigmoid激活函数（将函数值约束到［0,1］），该Cell对应的Anchor Box对应的宽高为（pw,ph）。简而言之，（bx,by）就是（cx,cy）这个Cell附近的Anchor Box针对预测值（tx,ty）得到的Bounding Box的坐标预测结果，同时可以发现这种方式对于较远距离的Bounding Box预测值（tx,ty）能够得到很大的限制。 YOLOv2通过添加一个转移层，把高分辨率的浅层特征连接到低分辨率的深层特征（把特征堆积在不同Channel中）而后进行融合和检测。具体操作是先获取前层的26*26的特征图，将其同最后输出的13*13的特征图进行连接，而后输入检测器进行检测（检测器的FC层起到了全局特征融合的作用），以此来提高对小目标的检测能力。为了适应不同尺度下的检测任务，YOLOv2在训练网络时，其在检测数据集上fine-tuning时候采用的输入图像的size是动态变化的。具体来讲，每训练10个Batch，网络就会随机选择另一种size的输入图像。因为YOLOv2用到了参数是32的下采样，因此也采用32的倍数作为输入的size，即采用{320,352,…,608}的输入尺寸（网络会自动改变尺寸，并继续训练的过程）。这一策略让网络在不同的输入尺寸上都能达到较好的预测效果，使同一网络能在不同分辨率上进行检测。输入图片较大时，检测速度较慢，输入图片较小时，检测速度较快，总体上提高了准确率，因此多尺度训练算是在准确率和速度上达到一个平衡。上表反映的是在检测时，不同大小的输入图片情况下的YOLOv2和其他目标检测算法的对比。可以看出通过多尺度训练的检测模型，在测试的时候，输入图像在尺寸变化范围较大的情况下也能取得mAP和FPS的平衡。 YOLOv1采用的训练网络是GoogleNet，YOLOv2采用了新的分类网络Darknet-19作为基础网络，它使用了较多的3*3卷积核，并把1*1的卷积核置于3*3的卷积核之间，用来压缩特征，同时在每一次池化操作后把通道（Channels）数翻倍（借鉴VGG网络）。 YOLOv1采用的GooleNet包含24个卷积层和2个全连接层，而Darknet-19包含19个卷积层和5个最大池化层（Max Pooling Layers），后面添加Average Pooling层（代替v1中FC层），而Softmax分类器作为激活被用在网络最后一层，用来进行分类和归一化。在ImageNet数据集上进行预训练，主要分两步（采用随机梯度下降法）：输入图像大小是224*224，初始学习率（Learning Rate）为，训练160个epoch，权值衰减（Weight Decay）为，动量（Momentum）为，同时在训练时采用标准的数据增强（Data Augmentation）方式如随机裁剪、旋转以及色度、亮度的调整。 fine-tuning：第1步结束后，改用448*448输入（高分辨率模型），学习率改为，训练10个epoch，其他参数不变。结果表明：fine-tuning后的top-1准确率为，top-5准确率为，若按照原来的训练方式，Darknet-19的top-1准确率是，top-5准确率为。可以看出，两步分别从网络结构和训练方式方面入手提高了网络分类准确率。预训练之后，开始基于检测的数据集再进行fine-tuning。首先，先把最后一个卷积层去掉，然后添加3个3*3的卷积层，每个卷积层有1024个卷积核，并且后面都连接一个1*1的卷积层，卷积核个数（特征维度）根据需要检测的类数量决定。（比如对VOC数据，每个Cell需要预测5个Boungding Box，每个Bounding Box有4个坐标值、1个置信度值和20个条件类别概率值，所以每个单元格对应125个数据，此时卷积核个数应该取125。）然后，将最后一个3*3*512的卷积层和倒数第2个卷积层相连（提取细粒度特征），最后在检测数据集上fine-tuning预训练模型160个epoch，学习率采用，并且在第60和90个epoch的时候将学习率除以10，权值衰减、动量和数据增强方法与预训练相同。 YOLO9000通过结合分类和检测数据集，使得训练得到的模型可以检测约9000类物体，利用带标注的分类数据集量比较大的特点，解决了带标注的检测数据集量比较少的问题。具体方法是：一方面采用WordTree融合数据集，另一方面联合训练分类数据集和检测数据集。分类数据集和检测数据集存在较大差别：检测数据集只有粗粒度的标记信息，如“猫”、“狗”，而分类数据集的标签信息则更细粒度，更丰富。比如“狗”就包括“哈士奇”、“金毛狗”等等。所以如果想同时在检测数据集与分类数据集上进行训练，那么就要用一种一致性的方法融合这些标签信息。用于分类的方法，常用Softmax（比如v2），Softmax意味着分类的类别之间要互相独立的，而ImageNet和COCO这两种数据集之间的分类信息不相互独立（ImageNet对应分类有9000种，而COCO仅提供80种目标检测），所以使用一种多标签模型来混合数据集，即假定一张图片可以有多个标签，并且不要求标签之间独立，而后进行Softmax分类。由于ImageNet的类别是从WordNet选取的，作者采用以下策略重建了一个树形结构（称为WordTree）：遍历ImageNet的标签，然后在WordNet中寻找该标签到根节点(所有的根节点为实体对象)的路径；如果路径只有一条，将该路径直接加入到WordTree结构中；否则，从可选路径中选择一条最短路径，加入到WordTree结构中。 WordTree的作用就在于将两种数据集按照层级进行结合。如此，在WordTree的某个节点上就可以计算该节点的一些条件概率值，比如在terrier这个节点，可以得到如下条件概率值：进而，如果要预测此节点的概率（即图片中目标是Norfolk terrier的概率），可以根据WordTree将该节点到根节点的条件概率依次相乘得到，如下式：其中： YOLO9000在WordTree1k（用有1000类别的ImageNet1k创建）上训练了Darknet-19模型。为了创建WordTree1k作者添加了很多中间节点（中间词汇），把标签由1000扩展到1369。训练过程中GroundTruth标签要顺着向根节点的路径传播：为了计算条件概率，模型预测了一个包含1369个元素的向量，而且基于所有“同义词集”计算Softmax，其中“同义词集”是同一概念下的所属词。现在一张图片是多标记的，标记之间不需要相互独立。在训练过程中，如果有一个图片的标签是“Norfolk terrier”，那么这个图片还会获得“狗”以及“哺乳动物”等标签。如上图所示，之前的ImageNet分类是使用一个大Softmax进行分类，而现在WordTree只需要对同一概念下的同义词进行Softmax分类。然后作者分别两个数据集上用相同训练方法训练Darknet-19模型，最后在ImageNet数据集上的top-1准确率为，top-5准确率为；在WordTree数据集上的top-1准确率为，top-5准确率为。这种方法的好处是有“退而求其次”的余地：在对未知或者新的物体进行分类时，性能损失更低，比如看到一个狗的照片，但不知道是哪种种类的狗，那么就预测其为“狗”。以上是构造WordTree的原理，下图是融合COCO数据集和ImageNet数据集以及生成它们的WordTree的示意图（用颜色区分了COCO数据集和ImageNet数据集的标签节点），混合后的数据集对应的WordTree有9418个类。另一方面，由于ImageNet数据集太大，YOLO9000为了平衡两个数据集之间的数据量，通过过采样（Oversampling）COCO数据集中的数据，使COCO数据集与ImageNet数据集之间的数据量比例达到1：4。对YOLO9000进行评估，发现其mAP比DPM高，而且YOLO有更多先进的特征，YOLO9000是用部分监督的方式在不同训练集上进行训练，同时还能检测9000个物体类别，并保证实时运行。虽然YOLO9000对动物的识别性能很好，但是对衣服或者装备的识别性能不是很好（这跟数据集的数据组成有关）。 YOLO9000的网络结构和YOLOv2类似，区别是每个单元格只采用3个Anchor Boxes。 YOLO9000提出了一种在分类数据集和检测数据集上联合训练的机制，即使用检测数据集（COCO）的图片去学习检测相关的信息即查找对象（例如预测边界框坐标、边界框是否包含目标及目标属于各个类别的概率），使用仅有类别标签的分类数据集（ImageNet）中的图片去扩展检测到的对象的可识别种类。具体方法是：当网络遇到一个来自检测数据集的图片与标记信息，就把这些数据用完整的损失函数（v2和9000均沿用了v1网络的损失函数）反向传播，而当网络遇到一个来自分类数据集的图片和分类标记信息，只用代表分类误差部分的损失函数反向传播这个图片。 YOLO v2 在大尺寸图片上能够实现高精度，在小尺寸图片上运行更快，可以说在速度和精度上达到了平衡，具体性能表现如下所示。 coco数据集 voc2012数据集

索引序列
传统目标检测最新论文
最新传感器与检测技术论文
一文看尽16篇目标检测最新论文
医学图像目标检测最新发展论文
目标检测论文的创新点
返回顶部

传统目标检测最新论文