• 回答数

    2

  • 浏览数

    322

pang小妞
首页 > 毕业论文 > resnet图像分类毕业论文

2个回答 默认排序
  • 默认排序
  • 按时间排序

月想月乐

已采纳

SiamFC跟踪方法取得了很大的成功,同时也促进了深度学习在跟踪领域的发展。我们知道SiamFC采用的骨干网络是AlexNet,使用该网络来提取图像特征。AlexNet最早实在图像识别任务中被提出,第一次证实了卷积网络在CV领域的有效性,取得了2012年ImageNet竞赛的第一名。自此以后,许多的深度卷积网络被提出,如VGG,GoogLeNet以及ResNet等,可以看出从AlexNet到ResNet,网络的层数越来越多,也即网络的深度越来越深,这也使得网络的性能越来越强大,取得的成绩也越来越好。由此我们自然的可以想到,使用更加强大的backbone是不是也能改进Siamese跟踪方法的性能呢?本文主要讨论SiamRPN++中的骨干网络ResNet。可以看到残差块中包含2种映射,一种是identity mapping,指的就是上图中的曲线,另一种residual mapping,指的就是除曲线外那部分,所以最后的输出是y = F(x) + x。identity mapping顾名思义,就是指本身,也就是公式中的x,而residual mapping指的是“差”,也就是y − x,所以残差指的就是F(x)部分。因此网络需要学习的F(x)为输入与目标的差值,故称为残差网络。原始的ResNet主要应用于图像分类和识别任务,对于空间信息不敏感,而在跟踪任务中,空间信息对于目标的准确定位至关重要,所以要在跟踪任务中使用,需要对ResNet进行改进。 上图为SiamRPN++的网络结构图,其采用的backbone为修改的ResNet-50。原始ResNet-50的stride为32,对跟踪不适合。作者对最后两个block的stride进行了修改,将总stride降低到8,并通过空洞卷积来增加感受野。从上图可以看到,采用了ResNet不同深度卷积层的特征,在每个block输出上添加额外的1×1卷积层来将特征通道降低为256。文章将所有层的padding保留了。

224 评论

風雨飘零

自己很早就看到过这篇论文了,论文中的工作和我的一个项目也是有很多共通之处,但是自己实力不够也没有想法去把它们全部总结下来,只能在此膜拜一下大佬。 自从2012年AlexNet在图像分类任务上大放异彩后,深度卷积神经网络已经成为图像分类任务上最有效的方法,在ImageNet上的准确率也从提升至。然而这些提升不仅仅是网络结构上的改进,还有很多训练策略上的改进,如损失函数、数据预处理、优化方法等,但是这些改进的关注度却非常低,有些重要的tricks甚至只能在源码中找到。本论文总结了一个技巧大礼包,通过和baseline对比,评估这些技巧的有效性。同样的,关于这些技巧的结论也适用于其他计算机视觉任务,比如目标检测、语义分割、实例分割等等。 baseline的训练方法主要是参考Resnet的训练过程。 近些年来,硬件(GPU)上发展迅速,所以在权衡性能上的选择也发生了改变。现在在训练时会去选择使用低数值精度和更大的batch size。 对于同样个数的epoch,大的batch_size效果不如小的batch_size。可以用以下启发式方法来解决这个问题 通常神经网络都是用32位浮点型(FP32)精度训练,也就是说所有参数的存储和运算都是用FP32。然而当前的新硬件支持更低精度的数据类型。比如V100用FP32能提供14TFLOPS,但是用FP16能提供100TFLOPS。在V100上从FP32切换到FP16后,整体训练速度加快了2到3倍。(本人不太了解混合精度训练,论文里也只是简单提了几句,大概看了一下百度的那篇混合精度论文,有误的话请指正) 尽管使用FP16可以大大加快训练速度,但是有些梯度在FP16范围之外,如果用FP16进行更新,梯度都会是0,无法正常训练。所以这里主要有两个方法: 模型调整是对网络体系结构的微小调整,例如改变特定卷积层的步幅。这种调整通常几乎不会改变计算复杂性,但可能对模型精度产生不可忽略的影响。在本节中,我们将使用ResNet作为示例来研究模型调整的影响。 ResNet由一个输入主干,后续的四个阶段和一个输出层组成。 ResNet有两个流行的调整,在这里我们分别成为ResNet-B和ResNet-C,我们也提出了一个新的模型调整,ResNet-D。 使用第三节提到的BS=1024,精度为FP16的ResNet50进行实验。ResNet50和ResNet50-D的浮点数计算成本差异在15%内,在训练过程中,ResNet50-D仅仅只慢了3%,精度提升了1%。我自己也大概计算了一下将用3个3x3替代一个7x7增加的FLOPs。(不包含bias,BN,ReLu等计算)本节进一步介绍提高模型精度的四种训练策略的改进。 在训练过程中,学习率是一个至关重要的参数,在使用warm up后,我们通常会随着训练进程,逐步降低学习率。广泛使用的策略是学习率指数衰减。在ResNet中是每30轮降低,称之为step decay;在Inception中是每两轮降低。另一种策略是2016年提出的学习率余弦衰减。简化版本是通过余弦函数将学习速率从初始值降低到0。从上图可以看出,起初余弦衰减的学习率缓慢下降,在中间部分几乎是线性下降,在最后又缓慢下降。(但是似乎准确率没有提升,而且也没有加速收敛,只是验证准确率曲线更加平滑) 图像分类网络的最后一层通常是全连接层。由 表示 类的预测得分,可以通过 算子对这些得分进行归一化得到预测概率。总共有 类, 类的概率 可以通过以下公式计算:另外,如果图像的真实标签是 ,我们可以得到分布 : 负交叉熵计算(论文中此处公式有误): 通过训练,使得 两个分布越来越接近。损失计算也可以转换为下式: 所以最优解是 ,同时保持其他值很小。换句话说,这样做也鼓励输出的分数有显著区别,从而可能导致过拟合(通过softmax学到的模型太自信了)。 标签平滑的想法首先被提出用于训练Inception-v2,它改变了真实概率 的分布: 其中 是一个常数,所以最后的解为: 其中 可以是任意实数。这样可以调整全连接层的输出,得到更好的泛化能力。 在知识蒸馏中,我们使用教师模型来帮助训练当前模型,这被称为学生模型。教师模型通常是具有更高准确度的预训练模型,因此通过模仿,学生模型能够在保持模型复杂性相同的同时提高其自身的准确性。一个例子是使用ResNet-152作为教师模型来帮助培训ResNet-50。 在训练期间,我们添加蒸馏损失来惩罚教师模型的Softmax出书和学生模型之间的差异。给定输入,假设 是真实概率分布,并且 分别是学生模型和教师模型最后全连接层的输出。我们之前是使用负交叉熵损失 来衡量 之间的差异。加上只是蒸馏后,其损失函数变为:2017年提出的mixup。每次随机选两个样本作为一个样本对 ,然后通过这一个样本对,生成一个新的样本:这里作者没有提及采用mix up后损失函数计算方法的改变,我补充一下: 知乎的讨论---如何评价mixup: BEYOND EMPIRICAL RISK MINIMIZATION? 我们设置 用于标签平滑,使用 用于知识蒸馏,对于ResNet152-D模型,同时使用余弦学习率衰减和标签平滑作为教师网络。在mix up 中,我们在Beta分布中选择 ,并且将训练轮数由120增加到200,因为mix up要求使用更多的轮数才能够更好的收敛。当我们同时使用mix up 和知识蒸馏时,教师网络也会使用mix up进行训练。 知识蒸馏在ResNet上运行良好,但是它在Inception-V3和MobileNet上运行不佳。我们的解释是,教师模型不是来自学生的同一个家庭,因此在预测中有不同的分布,并对模型带来负面影响。 迁移学习是图像分类模型的一个主要用途,我们在选择了两个重要的计算机视觉任务:物体检测和语义分割,通过改变基本模型来评估他们的性能。 我们分别使用VOC 2007 trainval和VOC 2012 trainval的联合集进行培训,并使用VOC 2007测试进行评估。我们在这个数据集上训练了Faster-RCNN,其中包括来自Detectron的改进,例如线性warm up 和 long training schedul。将Faster-RCNN的基础网络替换,保持其他设置相同,因此收益仅来自于模型。ImageNet上精度为%的最佳基础模型在VOC上的最佳mAP为%,优于标准模型4% 我们使用完全卷积网络FCN在ADE20K 数据集上训练模型,在Stage3和Stage4中使用扩张卷积。与我们在物体检测上的结果相矛盾,余弦学习速率表有效地提高了FCN性能,而其他改进则没有效果。对该现象的潜在解释是语义分割在像素级别中预测。虽然使用标签平滑,蒸馏和mix up 的模型有利于软化标签,但模糊的像素级信息可能会降低精度。 在本文中,我们调查了十几个技巧,以训练深度卷积神经网络,以提高模型的准确性。这些技巧为模型架构,数据预处理,损失函数和学习速率进行了微小的修改。我们在ResNet-50,Inception-V3和MobileNet上的实证结果表明,这些技巧可以始终如一地提高模型精度。更令人兴奋的是,将所有这些堆叠在一起可以显着提高准确性。此外,这些改进的预训练模型在转移学习中显示出强大的优势,这改善了对象检测和语义分割。我们相信,这种优势可以扩展到更广泛的领域。 作者总结了一大堆技巧,并且对于这些技巧都做了足够的实验,可以将其作为一本指导手册,帮助自己在以后训练网络的过程中少踩坑。其中每一个tricks在本文中也只是简单交代,想要了解更多的细节还需要去找相关论文继续深入。

138 评论

相关问答

  • 花卉图像分类毕业论文

    希望有帮助摘要: 花卉是大自然给人类最美好的恩赐,它们可以美化环境,陶冶性情,净化心灵,增进健康,丰富人们的精神生活,给人以美的享受、美的熏陶和美的启迪;特别是

    卷卷卷和毛 4人参与回答 2023-12-05
  • 图像增强类毕业论文选题

    浅谈影像医学专业在职硕士论文的选题 近年来,我国的在职研究生教育迅速发展,不断为社会培养出具有竞争力的高端创新人才。在当前的教育体制中,一般会把研究生学位论文作

    华丽的转身159 3人参与回答 2023-12-09
  • 图像增强类毕业论文题目

    视觉传达毕业论文题目 视觉传达毕业论文题目具体有哪些呢,大家有了解过吗?下面是我为大家介绍的视觉传达毕业论文题目,欢迎参考和阅读,希望能帮到大家! 视觉传达毕业

    无痕之音 3人参与回答 2023-12-10
  • 毕业论文图像分辨率要求

    这是啥?你的论文要求是图片吗? 600DPI就是600DPI,没有你所说的算法问题,DPI简单理解就是清晰度.DPI越高清晰度就越高,支持清晰打印的尺寸就越大

    月兮月兮 3人参与回答 2023-12-09
  • 图像分割毕业论文doc

    随着图像处理技术的迅速发展,图像识别技术的应用领域越来越广泛。我整理了图像识别技术论文,欢迎阅读! 图像识别技术研究综述 摘要:随着图像处理技术的迅速发展,图像

    那个啥来着呢 3人参与回答 2023-12-08