• 回答数

    3

  • 浏览数

    82

轻舞迷影
首页 > 学术论文 > 视频目标检测的论文

3个回答 默认排序
  • 默认排序
  • 按时间排序

安居客jismkll

已采纳

能不能给我发一份呢?

202 评论

tiaotiao1985

论文地址:《 Very Deep Convolutional Networks for Large-Scale Image Recognition 》 思维导图: LSVRC:大规模图像识别挑战赛 ImageNet Large Scale Visual Recognition Challenge 是李飞飞等人于2010年创办的图像识别挑战赛,自2010起连续举办8年,极大地推动计算机视觉发展。比赛项目涵盖:图像分类(Classification)、目标定位(Object localization)、目标检测(Object detection)、视频目标检测(Object detection from video)、场景分类(Scene classification)、场景解析(Scene parsing)。 VGG Net由牛津大学的视觉几何组( V isual G eometry G roup)参加2014年ILSVRC提出的网络模型,它主要的贡献是展示了卷积神经网络的深度(depth)是算法优良性能的关键部分。 研究了“卷积网络的深度”在大规模的图像识别环境下对准确性的影响(即神经网络的深度与其性能之间的关系)。 使用一个非常小的卷积核 对网络深度进行评估,评估发现将网络深度加至16层-19层,性能有了显著提升。 在ImageNet Challenge 2014竞赛中,定位赛道获得第一名,分类赛道获得第二名。 论文提出了多种规模的网络架构(不同规模深度不尽相同),下图为其中性能表现良好的网络架构之一:VGG16结构图。 所有卷积操作之后跟有3个全连接层(FC层): 所有的ConvNet配置如图所示,VGG结构全部都采用较小的卷积核(3x3,部分1x1): 两个3×3的卷积层串联相当于1个5×5的卷积层(二者具有等效感受野5x5),3个串联的3×3卷积层串联的效果相当于一个7×7的卷积层; 下图展示了为什么“两个3x3卷积层”与“单个5x5卷积层”具有等效的5x5的感受野。 2个3x3卷积层拥有比1个5x5卷积层更多的非线性变换(前者可以使用两次ReLU激活函数,而后者只有一次),使得卷积神经网络对特征的学习能力更强。 不影响输入输出的维度情况下(即图片宽高尺寸不变),降低了大量运算,同时改变了维度(通道数); 卷积之后再紧跟ReLU进行非线性处理,提高决策函数的非线性。 详见: 数据增强,有利于预防过拟合。 测试阶段与训练阶段主要有两点不同: VGGNet网络特点:

253 评论

oo鱼泡泡oo

小目标问题在物体检测和语义分割等视觉任务中一直是存在的一个难点,小目标的检测精度通常只有大目标的一半。

CVPR2019论文: Augmentation for small object detection 提到了一些应对小目标检测的方法,笔者结合这篇论文以及查阅其它资料,对小目标检测相关技巧在本文进行了部分总结。

小目标的定义: 在MS COCO数据集中,面积小于 32*32 的物体被认为是小物体。

小目标难以检测的原因: 分辨率低,图像模糊,携带的信息少。由此所导致特征表达能力弱,也就是在提取特征的过程中,能提取到的特征非常少,这不利于我们对小目标的检测。

1、由于小目标面积太小,可以放大图片后再做检测,也就是在尺度上做文章,如FPN(Feature Pyramid Networks for Object Detection),SNIP(An Analysis of Scale Invariance in Object Detection – SNIP)。

Feature-Fused SSD: Fast Detection for Small Objects, Detecting Small Objects Using a Channel-Aware Deconvolutional Network 也是在多尺度上做文章的论文。

2、在Anchor上做文章(Faster Rcnn,SSD, FPN都有各自的anchor设计),anchor在设置方面需要考虑三个因素:

anchor的密度: 由检测所用feature map的stride决定,这个值与前景阈值密切相关。

anchor的范围: RetinaNet中是anchor范围是32~512,这里应根据任务检测目标的范围确定,按需调整anchor范围,或目标变化范围太大如MS COCO,这时候应采用多尺度测试。

anchor的形状数量: RetinaNet每个位置预测三尺度三比例共9个形状的anchor,这样可以增加anchor的密度,但stride决定这些形状都是同样的滑窗步进,需考虑步进会不会太大,如RetinaNet框架前景阈值是时,一般anchor大小是stride的4倍左右。

该部分anchor内容参考于:

3、在ROI Pooling上做文章,文章SINet: A Scale-Insensitive Convolutional Neural Network for Fast Vehicle Detection 认为小目标在pooling之后会导致物体结构失真,于是提出了新的Context-Aware RoI Pooling方法。

4、用生成对抗网络(GAN)来做小目标检测:Perceptual Generative Adversarial Networks for Small Object Detection。

1、从COCO上的统计图可以发现,小目标的个数多,占到了,但是含有小目标的图片只有,大目标所占比例为,但是含有大目标的图像却有。这说明有一半的图像是不含小目标的,大部分的小目标都集中在一些少量的图片中。这就导致在训练的过程中,模型有一半的时间是学习不到小目标的特性的。

此外,对于小目标,平均能够匹配的anchor数量为1个,平均最大的IoU为,这说明很多情况下,有些小目标是没有对应的anchor或者对应的anchor非常少的,即使有对应的anchor,他们的IoU也比较小,平均最大的IoU也才。

如上图,左上角是一个anchor示意图,右上角是一个小目标所对应的anchor,一共有只有三个anchor能够与小目标配对,且配对的IoU也不高。左下角是一个大目标对应的anchor,可以发现有非常多的anchor能够与其匹配。匹配的anchor数量越多,则此目标被检出的概率也就越大。

实现方法: 1、Oversampling :我们通过在训练期间对这些图像进行过采样来解决包含小对象的相对较少图像的问题(多用这类图片)。在实验中,我们改变了过采样率和研究不仅对小物体检测而且对检测中大物体的过采样效果

2、Copy-Pasting Strategies:将小物体在图片中复制多分,在保证不影响其他物体的基础上,增加小物体在图片中出现的次数(把小目标扣下来贴到原图中去),提升被anchor包含的概率。

如上图右下角,本来只有一个小目标,对应的anchor数量为3个,现在将其复制三份,则在图中就出现了四个小目标,对应的anchor数量也就变成了12个,大大增加了这个小目标被检出的概率。从而让模型在训练的过程中,也能够有机会得到更多的小目标训练样本。

具体的实现方式如下图:图中网球和飞碟都是小物体,本来图中只有一个网球,一个飞碟,通过人工复制的方式,在图像中复制多份。同时要保证复制后的小物体不能够覆盖该原来存在的目标。

网上有人说可以试一下lucid data dreaming Lucid Data Dreaming for Multiple Object Tracking ,这是一种在视频跟踪/分割里面比较有效的数据增强手段,据说对于小目标物体检测也很有效。

基于无人机拍摄图片的检测目前也是个热门研究点(难点是目标小,密度大)。 相关论文: The Unmanned Aerial Vehicle Benchmark: Object Detection and Tracking(数据集) Drone-based Object Counting by Spatially Regularized Regional Proposal Network Simultaneously Detecting and Counting Dense Vehicles from Drone Images Vision Meets Drones: A Challenge(数据集)

1: 2: 3: 4: 5: 6: 7:

144 评论

相关问答

  • 音频检测论文

    请问楼主的相关资料还在么

    饭团爱上飞 3人参与回答 2023-12-07
  • 核电目视检测论文

    核电作为一种清洁能源,对于满足中国电力需求、优化能源结构、减少环境污染、促进经济能源可持续发展具有重要战略意义。我为大家整理的,希望你们喜欢。 篇一

    嘻哈精神9999 4人参与回答 2023-12-08
  • 视频交通参数检测毕业论文下载

    毕业 论文题目的选定不是一下子就能够确定的。若选择的毕业论文题目范围较大,则写出来的毕业论文内容比较空洞,后期也完成不了。那么交通运输类专业的毕业论文题目怎么

    沙尘暴来袭 2人参与回答 2023-12-10
  • 论文研究短视频的目的

    随着信息的发展,图片逐渐取代文字,而视频也将取代图片。研究表明,人们对各种信息形式的接受上,视频大于图片,图片又大于文字。并且,在内容量上,一小段视频的信息量远

    韩食小神厨 3人参与回答 2023-12-08
  • 深度学习的视频检测论文

    无可奈何需要

    正在复制843111 4人参与回答 2023-12-08