3d行人框检测论文笔记

3个回答默认排序

默认排序

按时间排序

先锋之家

已采纳

参考资料：行人检测算法行人检测是使用计算机视觉技术来判断图像或视频中是否存在行人。可以通过跟行人跟踪，行人重识别技术，来应用于人工智能系统，车辆辅助驾驶系统、智能交通等领域① 处理数据 ② 训练模型 ③ 输出目标位置① 外观差异大。包括视觉、姿态、服饰和附着物、光照、成像距离等。行人不同的运动姿态、角度，都会显示出不同的外观，而且成像距离远近不一，也会造成外观大小不同 ② 遮挡问题，在行人密集的地方，会发生行人被遮挡的问题，或者是被周围的建筑物遮挡住 ③ 背景复杂，有些物体的外观、造型、颜色、纹理等都比较接近人体，例如雕塑或人像广告牌、假人等。之前就有个新闻说红绿灯行人越线检测时，把公共汽车上的代言人广告中的代言人也检测了出来 ④ 检测速度，行人检测一般使用了比较复杂的模型，运算量相当大，要达到实时非常困难，一般需要大量的优化Faster R-CNN 文献[16]分析了Faster R-CNN在行人检测问题上的表现，结果表明，直接使用这种算法进行行人检测效果并不满意。作者发现，Faster R-CNN中的RPN网络对提取行人候选区域是相当有效的，而下游的检测网络表现的不好。作者指出了其中的两个原因：对于小目标，卷积层给出的特征图像太小了，无法有效的描述目标；另外，也缺乏难分的负样本挖掘机制。作者在这里采用了一种混合的策略，用RPN提取出候选区域，然后用随机森林对候选区域进行分类。这一结构如下图所示： DeepParts 文献[21]提出了一种基于部件的检测方案，称为DeepParts，致力于解决遮挡问题。这种方案将人体划分成多个部位，分别进行检测，然后将结果组合起来。部位划分方案如下图所示：整个系统的结构如下图所示： RepLoss RepLoss[14]由face++提出，主要目标是解决遮挡问题。行人检测中，密集人群的人体检测一直是一个难题。物体遮挡问题可以分为类内遮挡和类间遮挡两类。类内遮挡指同类物体间相互遮挡，在行人检测中，这种遮挡在所占比例更大，严重影响着行人检测器的性能。针对这个问题，作者设计也一种称为RepLoss的损失函数，这是一种具有排斥力的损失函数，下图为RepLoss示意图： RepLoss 的组成包括 3 部分，表示为：其中L_Attr 是吸引项，需要预测框靠近其指定目标；L_RepGT 和 L_RepBox 是排斥项，分别需要当前预测框远离周围其它的真实物体和该目标其它的预测框。系数充当权重以平衡辅助损失。 HyperLearner 文献[25]提出了一种称为HyperLearner的行人检测算法，改进自Faster R-CNN。在文中，作者分析了行人检测的困难之处：行人与背景的区分度低，在拥挤的场景中，准确的定义一个行人非常困难。作者使用了一些额外的特征来解决这些问题。这些特征包括： apparent-to-semantic channels temporal channels depth channels 为了将这些额外的特征也送入卷积网络进行处理，作者在VGG网络的基础上增加了一个分支网络，与主体网络的特征一起送入RPN进行处理：其他的基本上遵循了Faster R-CNN框架的处理流程，只是将anchor参数做了改动。在实验中，这种算法相比Faster R-CNN有了精度上的提升。从上面的回顾也可以看出，与人脸检测相比，行人检测难度要大很多，目前还远称不上已经解决，遮挡、复杂背景下的检测问题还没有解决，要因此还需要学术界和工业界的持续努力。

179 评论 2小时前发布

umaumauhauha

行人重识别任务的目标是希望在多个不具有重叠区域的摄像场景中实现行人的检索。目前行人重识别根据采用的组件不同可以分为closed-world和open-world两种。closed-world场景相对而言目前研究较深入，其主要针对于不同的应用假设，在多个数据集上都取得较好的性能，比如Market1501，CUHK和DUKE等。 closed-world场景一般研究重点有三部分：深度特征表示学习、深度度量学习和rank优化。而open-world场景则相对更加复杂。本文总结了open-world场景中ReID的五个不同视角，提出了一种AGW基线方法，在多个ReID任务上都取得较好性能。另外，本文还提出了一种新的评估度量 mINP。最后探索了ReID目前亟待解决的一些方向。

基本定义：非重叠的多个摄像场景中，特定行人的检索问题。具体而言，给定一个待检索的目标行人，ReID希望能够判断这个目标是否出现在不同时刻不同场景不同摄像头的场景中。基本难点：行人的视角、图像分辨率变化、光照变化、姿态变化、遮挡，不同模态等。该综述的不同点：

根据上面五块内容，ReID任务分为closed-world和open-world两类，区别如下：

closed-world场景的一般前提：1）输入时裁剪后的行人图像块；2）有监督学习；3)检索目标一定存在gallery中。 closed-world场景模型一般包含3部分：特征抽取、度量学习和rank 优化。

如下图所示，一般包含四类：

知识点：

ReID的难点包括视角不同，遮挡等，行人区域可能不对齐，这时往往希望通过部件或者区域特征进行对齐。主流趋势是combine全局特征和部件特征。以PDC模型为代表的pose驱动方法，通过pose获得部件信息，然后利用部件的attention进行检索。PCB方式是利用图像均匀划分的典型。其将目标框水平分成6个条带，每个条带进行独立的分类任务学习，在推理阶段将六条条带的特征进行concat表征整体。另外还通过refined part pooling策略增强了部件内部的一致性，具体是计算每个部件与所有像素点的相似度进行重新划分，可以认为是一种non-local的attention。行人parsing技术能够获得较好的语义部件，提供更对齐的部件特征，但需要额外的pose检测器且由于ReID数据集和Pose数据集的分布差异，易产生错误的pose。均匀划分的策略更灵活，但对严重遮挡和大的背景模糊无能为力。

辅助特征表示学习一般包括额外的标注数据，比如语义标注，和训练样本生成等。

该任务中，每个目标不再是图像区域，而是一段帧序列。

待续（ReID领域新接触，积累不够，综述文章读着好多理解不够深入，先去读具体方法了;( 后面积累了，再回来阅读这个吧。。。留坑）

将行人作为特定的行人检索问题，大多数方法都采用用于图像分类的网络结构作为backbone。其中一些方法通过修改backbone的结果以提取更好的ReID特征，比如对于ResNet50而言，一般将最后一个stage的stripe改为1以增大分辨率（参考文献PCB），或者最后一个pooling层采用自适应的平均池化（这里参考文献是PCB模型，池化时时不同的条带中进行gap），再或者在pooling层后添加具有bn的bottleneck 层（暂停，滚去阅读参考文献75， SVDNet了！（OK，已读完，见，和作者说的其实有出入，并不是加了bn，而是希望投影向量正交，从而获得的表观特征在每个维度上相互独立））。其他的一些为ReID专门设计的网络结构有 FPNN(filter pairing neural network), 通过部件鉴别信息的挖掘同时处理不对齐和遮挡问题(暂停，去读参考文献34，DeepReID （已读，）)，[141]提出一种提升邻域差异的层用于捕捉patch特征的差别，进而把这种差异送入后面的层中(感觉类似resnet的思想。(读完，其实就是提出一种结合了self-attention的part-aware module方法search space中，使用NAS迭代的搜索方法寻找针对于数据集的最优结构，当然说是专门为reid设计的网络结构也没毛病。))

220 评论 7小时前发布

iamjiaying

论文地址：前置文章：10/16、10/17、10/18

本文提出了Point Fractal Network(PF-Net),旨在从不完整的点云数据中恢复点云，克服了之前方法修改现有数据点、引入噪声和产生几何损失的缺点。

由前置文章可知，之前的点云修复方法是输入不完整的点云，输出完整的点云，但这样会导致原有信息的缺失。这篇文章提出PF-Net，主要特点有三个：

网络的整体结构如下：

网络详细推理步骤如下：

损失函数使用完整性损失和对抗损失的加权平均，完整性损失使用L-GAN中提出的CD距离：

对抗损失使用GAN中常见的损失函数

感觉这篇文章对多尺度的运用非常极致，在编码器、解码器和CMLP中都应用了这种思想，最后的效果也非常不错，很值得借鉴。

论文地址：

PointNet提出一种基础的网络结构，可以用于点云分类、部分分割和语义分割等多种任务。在这篇文章之前，点云数据的处理方式是将点云数据转换为多个二维的视图或三维的体素形式，然后应用2D/3D CNN进行处理，但这样引入了多余的体积，效率不高。本文是第一个直接使用点云数据的神经网络。（其实可以这样类比，在二维图像处理中，假设图像是二值化的，传统方法是将这个图像直接丢到CNN里面，但如果背景特别多会比较浪费资源。直接使用点云数据相当于直接将前景像素的坐标输入到神经网络里面，对稀疏数据会有比较好的性能，但因为以下三个问题导致直接使用坐标信息比较困难）由于点云的排列是无序的（可以想象，点云中任意一点排在前面对点云的表达都是相同的）、点云之间是有相互作用的（相邻的点云才能构成形状）、点云在某些变换下具有不变性（比如旋转不会改变点云的类别）这些特性，要求神经网络既能处理无序的数据，又能捕捉全局的结构特征，同时对刚性变换不敏感。基于这些条件，作者提出了如下的网络结构：

可以简要分析一下网络的工作流程，以点云分类问题为例：

感觉网络的结构虽然简单，但是却很好地满足了点云数据自身特性对神经网络的要求。而且我觉得在图像处理中，也有时候必须用到坐标信息或者一些标量特征，这篇文章的方法对于怎样将这些特征融合进CNN里面也有一定的启发意义。

论文地址：

这篇文章的主要工作是：

首先来看衡量两个点云相似程度的指标部分，作者首先给出了两个距离，EMD和CD：

在计算上，CD更为简便，而且EMD是不可导的。

基于这两种距离，作者引入了三种衡量两个点云相似程度的指标：JSD、Coverage和MMD：

定义了指标后，就可以实现自动编码器和生成模型了。作者提到了四种结构，分别是：

作者同时验证了AE的一些其他功能，比如如果给AE的编码器输入不完整的点云数据，即可训练得到点云复原的模型。使用SVM对低维表示进行分类，即可进行点云分类的任务，证明AE在点云数据形式中的潜在应用较为广泛。

论文地址：

PointNet++针对PointNet提取局部信息能力不强的弊端，提出了一种层次神经网络，可以更好地提取局部信息。其中心思想是将整个点云分割成若干个小部分来提取信息，然后将每个小部分整合成较大的部分，提取更高层次的信息。类似于CNN中卷积和下采样的思想。首先来看网络结构图：

网络大概可以分为两个部分，左边是层次的点云特征提取网络，右边是针对不同任务的解码网络。特征提取分为若干个set abstraction模块，每个模块又分为采样层、分组层和特征提取层。

得到了较高层次的特征后，对不同的任务需要不同的解码网络。对分类网络来说比较简单，使用全连接即可。对分割网络来说，由于对每个点都需要输出数值，则需要类似上采样的操作。具体的实现作者使用了插值的方法，将较少的点插值到较多的点上去。首先找到插值的目标坐标，然后寻找K个距离最近的已知点，以距离的倒数作为权重，将K个点的特征做加权平均，作为这个点的特征。然后使用之前特征提取中得到的该点的特征与当前特征做一个拼接，即可得到最终特征（类似U-Net的skip connection）。公式如下：

感觉这篇文章和PF-Net的思想差不多，都是希望提取多尺度的特征。但是思路不一样，都值得借鉴。

355 评论 7小时前发布

3d行人框检测论文笔记

3个回答 默认排序 默认排序 按时间排序

相关问答

期刊论文

向你推荐

热门问题

3个回答默认排序

默认排序

按时间排序