一粒砂的梦想
姓名:王咫毅 学号: 【嵌牛导读】机器学习成为现在研究的一大热门,而机器学习所应用到的领域图像处理 目标检测 图像分割都已经日趋成熟,而cnn是如何应用到图像分割里边的呢?而其发展过程又有哪些呢? 【嵌牛鼻子】机器学习 cnn 【嵌牛提问】r-cnn和mask r-cnn有什么区别?两者又是怎么形成的? 【嵌牛正文】 在 Athelas (Athelas 通过深度学习进行血液诊断),我们使用卷积神经网络(CNN)不仅仅是分类!在这篇文章中,我们将看到如何在图像实例分割中使用CNN,效果很好。 自从 Alex Krizhevsky,Geoff Hinton和Ilya Sutskever在2012年赢得ImageNet以来 ,卷积神经网络(CNNs)已经成为图像分类的黄金标准。事实上,从那时起,CNN已经改进到现在他们在ImageNet挑战中胜过人类的程度! need-to-insert-img CNN现在在ImageNet挑战中胜过人类。上图中的y轴是ImageNet上的错误率。 虽然这些结果令人印象深刻,但图像分类远比真人类视觉理解的复杂性和多样性简单得多。 need-to-insert-img 分类挑战中使用的图像示例。请注意图像是如何构图良好的,并且只有一个对象。 在分类中,通常有一个图像,其中一个对象作为焦点,任务是说该图像是什么(见上文)。但是,当我们观察周围的世界时,我们会执行更复杂的任务。 need-to-insert-img 现实生活中的景点通常由许多不同的,重叠的物体,背景和动作组成。 我们看到复杂的景点有多个重叠的物体和不同的背景,我们不仅要对这些不同的物体进行分类,还要确定它们之间的界限,差异和关系! need-to-insert-img CNN可以帮助我们完成这些复杂的任务吗?也就是说,给定一个更复杂的图像,我们可以使用CNN来识别图像中的不同对象及其边界吗?正如Ross Girshick和他的同龄人在过去几年所表明的那样,答案是肯定的。 这篇文章的目标 通过这篇文章,我们将介绍在对象检测和分割中使用的一些主要技术背后的直觉,并了解它们是如何从一个实现发展到下一个实现的。特别是,我们将介绍R-CNN(地区CNN),这是CNN对此问题的原始应用,以及其后代Fast R-CNN和Faster R-CNN。最后,我们将介绍最近由Facebook Research发布的一篇文章Mask R-CNN,它扩展了这种对象检测技术以提供像素级分割。以下是本文中引用的论文: R-CNN: https : // Fast R-CNN: https : // Faster R-CNN: https : // Mask R-CNN: https : // 2014年:R-CNN - CNN在物体检测中的早期应用 need-to-insert-img 诸如R-CNN的对象检测算法接收图像并识别图像中主要对象的位置和分类。 受多伦多大学Hinton实验室研究的启发,由Jitendra Malik教授领导的加州大学伯克利分校的一个小团队问自己,今天看来是一个不可避免的问题: 在多大程度上[Krizhevsky等。al的结果]推广到物体检测? 对象检测的任务是在图像中查找不同的对象并对其进行分类(如上图所示)。由Ross Girshick(我们将再次看到的名字),Jeff Donahue和Trevor Darrel组成的团队发现,通过测试PASCAL VOC Challenge,这是一种类似于ImageNet的流行物体检测挑战,Krizhevsky的结果可以解决这个问题。他们写, 本文首次表明,与基于简单HOG类功能的系统相比,CNN可以在PASCAL VOC上实现更高的物体检测性能。 现在让我们花一点时间来了解他们的架构,CNNs区域(R-CNN)是如何工作的。 了解R-CNN R-CNN的目标是接收图像,并正确识别图像中主要对象(通过边界框)的位置。 输入 :图像 输出 :图像中每个对象的边界框+标签。 但是我们如何找出这些边界框的位置?R-CNN做了我们可能直观地做的事情 - 在图像中 提出 一堆框,看看它们中的任何一个是否实际上对应于一个对象 。 need-to-insert-img 选择性搜索查看多个比例的窗口,并查找共享纹理,颜色或强度的相邻像素 R-CNN使用称为选择性搜索的过程创建这些边界框或区域提议,您可以在 此处 阅读。在较高的层次上,选择性搜索(如上图所示)通过不同大小的窗口查看图像,并且对于每个尺寸,尝试通过纹理,颜色或强度将相邻像素组合在一起以识别对象。 need-to-insert-img 在创建一组区域提议后,R-CNN通过AlexNet的修改版本传递图像,以确定它是否是有效区域。 一旦提出建议,R-CNN将该区域变为标准的方形大小,并将其传递给AlexNet的修改版本(ImageNet 2012的获奖提交,启发了R-CNN),如上所示。 在CNN的最后一层,R-CNN增加了一个支持向量机(SVM),它简单地分类这是否是一个对象,如果是的话,是什么对象。这是上图中的第4步。 改进边界框 现在,在盒子里找到了这个物体,我们可以收紧盒子以适应物体的真实尺寸吗?我们可以,这是R-CNN的最后一步。R-CNN对区域提议运行简单的线性回归,以生成更紧密的边界框坐标以获得最终结果。以下是此回归模型的输入和输出: 输入 :与对象对应的图像的子区域。 输出 :子区域中对象的新边界框坐标。 总而言之,R-CNN只是以下步骤: 1.为边界框生成一组提议。 2.通过预先训练的AlexNet运行边界框中的图像,最后运行SVM,以查看框中图像的对象。 3.通过线性回归模型运行该框,一旦对象被分类,就为框输出更紧密的坐标。 2015年:快速R-CNN - 加速并简化R-CNN need-to-insert-img Ross Girshick写了R-CNN和Fast R-CNN。他继续在Facebook Research推动计算机视觉的界限。 R-CNN效果很好,但由于一些简单的原因,它确实很慢: 它需要CNN(AlexNet)的正向传递,用于每个单个图像的每个区域建议(每个图像大约2000个前向传递!)。 它必须分别训练三个不同的模型 - 用于生成图像特征的CNN,用于预测类的分类器,以及用于收紧边界框的回归模型。这使得管道极难训练。 2015年,R-CNN的第一作者Ross Girshick解决了这两个问题,导致了我们短暂历史中的第二个算法 - 快速R-CNN。现在让我们回顾一下它的主要见解。 Fast R-CNN洞察力1:RoI(感兴趣区域)池 对于CNN的前向传递,Girshick意识到对于每个图像,图像的许多建议区域总是重叠,导致我们一次又一次地运行相同的CNN计算(~2000次!)。他的洞察力很简单 - 为什么不在每张图像上运行CNN一次,然后找到一种方法来分享〜2000个提案中的计算? need-to-insert-img 在RoIPool中,创建图像的完整前向传递,并从所得到的前向传递中提取每个感兴趣区域的conv特征。 这正是Fast R-CNN使用称为RoIPool(感兴趣区域池)的技术所做的事情。在其核心,RoIPool分享CNN的前向传递,以在其子区域中形成图像。在上图中,请注意如何通过从CNN的要素图中选择相应的区域来获取每个区域的CNN要素。然后,汇集每个区域中的要素(通常使用最大池)。所以我们所需要的只是原始图像的一次传递而不是~2000! 快速R-CNN洞察力2:将所有模型组合到一个网络中 need-to-insert-img 快速R-CNN将CNN,分类器和边界框回归器组合成一个单一网络 Fast R-CNN的第二个见解是在单个模型中联合训练CNN,分类器和边界框回归器。之前我们有不同的模型来提取图像特征(CNN),分类(SVM)和收紧边界框(回归量),而 快速R-CNN则使用单个网络来计算所有三个。 您可以在上图中看到这是如何完成的。快速R-CNN用在CNN顶部的softmax层替换SVM分类器以输出分类。它还添加了一个与softmax图层平行的线性回归图层,以输出边界框坐标。这样,所需的所有输出都来自一个网络!以下是此整体模型的输入和输出: 输入 :带有区域提案的图像。 输出 :每个区域的对象分类以及更严格的边界框。 2016年:更快的R-CNN - 加速地区提案 即使有了所有这些进步,快速R-CNN过程仍然存在一个瓶颈 - 区域提议者。正如我们所看到的,检测对象位置的第一步是生成一堆潜在的边界框或感兴趣的区域进行测试。在Fast R-CNN中,这些提议是使用 选择性搜索 创建的,这是一个相当缓慢的过程,被发现是整个过程的瓶颈。 need-to-insert-img 微软研究院的首席研究员孙健带领团队领导更快的R-CNN。 在2015年中期,由Shaoqing Ren,Kaiming He,Ross Girshick和Jian Sun组成的微软研究团队找到了一种方法,通过他们(创造性地)命名为快速R-CNN的架构,使该区域提案步骤几乎免费。 更快的R-CNN的见解是区域建议取决于已经通过CNN的前向传递(分类的第一步)计算的图像的特征。 那么为什么不为区域提案重用那些相同的CNN结果而不是运行单独的选择性搜索算法呢? need-to-insert-img 在Faster R-CNN中,单个CNN用于区域提议和分类。 实际上,这正是R-CNN团队更快取得的成就。在上图中,您可以看到单个CNN如何用于执行区域提议和分类。这样, 只有一个CNN需要接受培训 ,我们几乎可以免费获得地区建议!作者写道: 我们的观察结果是,基于区域的探测器(如Fast R-CNN)使用的卷积特征图也可用于生成区域提议[从而实现几乎无成本的区域提议]。 以下是其模型的输入和输出: 输入 :图像(注意不需要区域提议)。 输出 :图像中对象的分类和边界框坐标。 如何生成区域 让我们花点时间看看R-CNN如何通过CNN功能更快地生成这些区域提案。Faster R-CNN在CNN的功能之上增加了一个完全卷积网络,创建了所谓的 区域提案网络 。 need-to-insert-img 区域提案网络在CNN的功能上滑动窗口。在每个窗口位置,网络输出每个锚点的分数和边界框(因此4k框坐标,其中k是锚的数量)。 区域提议网络通过在CNN特征映射和每个窗口上传递滑动窗口来工作,输出 k个 潜在的边界框以及每个框预期有多好的分数。这些 k 盒代表什么? need-to-insert-img 我们知道人们的边界框往往是矩形和垂直的。我们可以通过创建这样的维度锚来利用这种直觉来指导我们的区域提案网络。 直觉上,我们知道图像中的对象应该适合某些常见的宽高比和大小。例如,我们知道我们想要一些类似于人类形状的矩形盒子。同样,我们知道我们不会看到很多非常薄的盒子。以这种方式,我们创建 k 这样的常见宽高比,我们称之为 锚盒 。对于每个这样的锚箱,我们输出一个边界框并在图像中的每个位置得分。 考虑到这些锚框,我们来看看这个区域提案网络的输入和输出: 输入 :CNN功能图。 输出 :每个锚点的边界框。表示该边界框中图像成为对象的可能性的分数。 然后,我们将可能是对象的每个这样的边界框传递到Fast R-CNN,以生成分类和收紧的边界框。 2017:Mask R-CNN - 扩展更快的R-CNN以实现像素级分割 need-to-insert-img 图像实例分割的目标是在像素级别识别场景中不同的对象是什么。 到目前为止,我们已经看到我们如何能够以许多有趣的方式使用CNN功能来有效地定位带有边界框的图像中的不同对象。 我们是否可以扩展这些技术以进一步找到每个对象的精确像素而不仅仅是边界框?这个问题被称为图像分割,是Kaiming He和包括Girshick在内的一组研究人员在Facebook AI上使用一种名为 Mask R-CNN 的架构进行探索的。 need-to-insert-img Facebook AI的研究员Kaiming He是Mask R-CNN的主要作者,也是Faster R-CNN的合着者。 就像Fast R-CNN和Faster R-CNN一样,Mask R-CNN的潜在直觉也是直截了当的。鉴于Faster R-CNN在物体检测方面的效果非常好,我们是否可以扩展它以进行像素级分割? need-to-insert-img 在掩码R-CNN中,在快速R-CNN的CNN特征之上添加完全卷积网络(FCN)以生成掩码(分段输出)。注意这与Faster R-CNN的分类和边界框回归网络并行。 Mask R-CNN通过向更快的R-CNN添加分支来完成此操作,该分支输出二进制掩码,该Mask 表示给定像素是否是对象的一部分。与以前一样,分支(上图中的白色)只是基于CNN的特征映射之上的完全卷积网络。以下是其输入和输出: 输入 :CNN功能图。 输出 :矩阵在像素属于对象的所有位置上为1,在其他位置为0(这称为 二进制掩码 )。 但Mask R-CNN的作者不得不进行一次小调整,以使这条管道按预期工作。 RoiAlign - 重新调整RoIPool更准确 need-to-insert-img 而不是RoIPool,图像通过RoIAlign传递,以便RoIPool选择的特征图的区域更精确地对应于原始图像的区域。这是必需的,因为像素级分割需要比边界框更细粒度的对齐。 当在原始的快速R-CNN架构上运行而没有修改时,Mask R-CNN作者意识到由RoIPool选择的特征图的区域与原始图像的区域略微不对准。由于图像分割需要像素级特异性,与边界框不同,这自然会导致不准确。 作者能够通过巧妙地调整RoIPool来解决这个问题,使用一种称为RoIAlign的方法进行更精确的对齐。 need-to-insert-img 我们如何准确地将感兴趣的区域从原始图像映射到特征图? 想象一下,我们有一个大小为 128x128 的图像和一个大小为 25x25 的特征图。让我们想象一下,我们想要的特征区域对应于原始图像中左上角的 15x15 像素(见上文)。我们如何从要素图中选择这些像素? 我们知道原始图像中的每个像素对应于特征图中的~25 / 128像素。要从原始图像中选择15个像素,我们只选择15 * 25 / 128~ = 像素。 在RoIPool中,我们将它向下舍入并选择2个像素,导致轻微的错位。但是,在RoIAlign中, 我们避免了这种舍入。 相反,我们使用 双线性插值 来准确了解像素处的内容。这在很大程度上是允许我们避免RoIPool引起的错位的原因。 生成这些掩模后,Mask R-CNN将它们与Faster R-CNN中的分类和边界框组合在一起,生成如此精确的分割: need-to-insert-img Mask R-CNN能够对图像中的对象进行分段和分类。 期待 在短短3年时间里,我们已经看到研究界如何从Krizhevsky等进步。al的原始结果是R-CNN,最后一直到Mask R-CNN这样强大的结果。孤立地看,像面具R-CNN这样的结果看起来像天才的难以置信的飞跃,是无法接近的。然而,通过这篇文章,我希望你已经看到这些进步如何通过多年的努力和合作实现直观,渐进的改进。R-CNN,Fast R-CNN,Faster R-CNN以及最后的Mask R-CNN提出的每个想法都不一定是量子跳跃,但它们的总和产品已经产生了非常显着的结果,使我们更接近人类水平了解视力。 让我特别兴奋的是,R-CNN和Mask R-CNN之间的时间只有三年!通过持续的资金,关注和支持,未来计算机视觉能够进一步提升?
高小果3
可以学术研究的人都知道一个著名的短语Publish or perish。就是说,研究人员发表文章是硬道理,只有快速而持续在某些专业领域发表自己的研究成果才能在学术界占领高地,并且让自己走得更远。而无论大家如何评价学术论文发表对科学和社会的贡献,学术圈实质上的游戏规则一直没有太大改变:对研究人员来说发表论文是硬通货,是他们获得职位、争取资源、赢得荣誉的重要途经和手段。目前杂志数量爆发式增长,研究人员在发表论文的时候自然有了更多的选择,但同时也给学术的评估带来了不小的麻烦,于是乎评估人员只好依赖于期刊的质量指标来评定研究质量。比如汤普森的影响因子就是为了将这个复杂而微妙的判定简化为一个数字,当然这也是目前业内使用广泛的指标。理论上影响因子似乎是期刊所发表研究的质量,但这一假设目前却越来越受到质疑。学术圈的人都深切体会到一篇文章能否在某个期刊终发表出来,除了科学质量方面的因素外还有其他一些很重要的因素。比如我们一直在告诫学生,一篇稿件在写作风格上、突出重点上和表达上些微的差别就可能影响杂志的接收情况。那么,这究竟只是老道的论文作者的感觉,还是不同期刊上文章的表达真的存在着这样那样的差别呢?如果这些差别真的存在,那么是否就表明影响因子真的与科学质量以外的东西有关呢,而作者是否可以通过改善一些相对简单的写作技巧,以此来提高他们在高影响因子期刊上发表论文的机会呢?在竞争激烈的学术圈中,年轻的研究人员和学生们必须尽可能地发表更多的论文,也希望大限度地争取在好的刊物上发表文章的机会,那么我们应该怎么做呢?美国南伊利诺斯大学的Brady Neiles及其同事在近一期的Bulletin of the Ecological Society of America上撰文分析了不同影响因子期刊中发表的论文,他指出:在竞争激烈的环境下,作者如果要让他们的稿件脱颖而出,改善写作的风格可能是一个有效的手段。而有力的科学写作手段也可看作是某种程度的推销和讲故事,作者必须找到如何创造性地讲故事并清晰地表达这些发现的重要性。
默然回首千百度
你应该好好了解自己研究的题目,论文与专业不一样,看来你的能力超强。希望你很快进入这个领域。名副其实的写出一篇有硕士水平的论文。到此为止,超出问答的范围不是到这回答问题的目的。
小麻烦ly
1 Novel Land Cover Classification Based on Mean Shift Segmentation for High Resolution Remote Sensing. Proceedings of 2006 International Conference on Artificial Intelligence——50 Years’Achievements, Future Directions and Social Impacts( ISAI’06) , Aug. 1-3, 2006, Beijing China. 第2作者(ISTP index )2 Remote Sensing Interpretation Based On Segmentation and Geo-Information System. 3rd International Symposium on Future Intelligent Earth Observing Satellites (FIEOS2006)), Nov 2006,Beijing,China.第2作者( EI index)3 Object Oriented Information Extraction of Forest Resources from High Resolution Remote Sensing. 《Proceedings of SPIE》,Geoinformatics 2006, Remote Sensed Data and Information, 28-29 Oct. 2006, Wuhan, China. 第2作者( EI index)4 Study on the Dynamic Changes of Rocky Desertification in Yunshun County based on RS in Northwestern Hunan Province. ISEIS'2006,Beijing Specialty Conference Science and Technology for Desertification Control (STDC),Oct. 2006,Beijing,China.第2作者(ISTP index)5 The VHR Data Multi-resolution Segmentation Based on Mean Shift. 广西大学学报(自科版), 2006(4),第2作者(广西师范大学主办,核心期刊,影响因子:)6 Spot-5影像特征分析及最佳波段选择.《遥感信息》,2006(4),第2作者(科技部国家遥感中心、中国测绘科学研究院主办,影响因子:)7 高分辨率遥感图像分割技术研究.《中南林学院学报》,2006(4),第1作者(中南林学院主办,核心期刊,影响因子:)8 Study on the technology of classifying high-resolution remote sensing image based on multi-feature.《International Symposium of Remote Sensing and Space Technology for Multi-disciplinary Research and Application》,19-24 May 2005 Beijing,China.第1作者(EI and ISTP index)9 湖南四水流域适宜森林覆盖率指标研究.《中南林学院学报》,2005(5),第1作者(中南林学学院主办,核心期刊,影响因子:)10 基于3S技术的土地利用数据库更新技术研究.《遥感信息》,2005(5),第1作者(科技部国家遥感中心、中国测绘科学研究院主办,影响因子:)11 QuickBird 卫星图像信息识别.《中国图象图形学报》,2005(12),第1作者(中国图象图形学会主办,一级期刊,影响因子:)12 多源遥感图像分级校正研究.《株洲师范专科学校学报》,2005(2) ,第1作者13 基于高分辨率遥感图像的土地覆盖信息提取.《遥感技术与应用》,2005(4),通讯作者(中国科学院遥感联合中心主办,影响因子:)14 多源遥感数据融合方法及其对植被识别的影响.《林业资源管理》,2005(5),通讯作者(国家林业局调查规划设计院,核心期刊)15 高分辨率遥感图像在林业应用中存在的问题与思考.《株洲师范高等专科学校学报》,2005(5),通讯作者16 森林树种高光谱波段的选择.《遥感信息》,2005(4),通讯作者(科技部国家遥感中心、中国测绘科学研究院主办,影响因子:)17 一种稳健的高分辨率遥感图像快速提取方法.《第12届全国图象图形学术大会论文集》,2005年10月,通讯作者18 森林经理专业“本硕连读”试验研究.《中南林学院学报》,2005(6),第1作者(中南林学学院主办,核心期刊,影响因子:)19 基于高分辨率卫星影像的立木材积表的编制.《林业科学》,2004(3),第1作者(中国林业学会主办,一级期刊,影响因子:)20 QUICKBIRD 数据处理及其应用.《遥感信息》,2004(2),第1作者(科技部国家遥感中心、中国测绘科学研究院主办,影响因子:)21 遥感数字图像的无缝镶嵌.《中南林学院学报》,2004(1),第1作者(科技部国家遥感中心、中国测绘科学研究院主办,核心期刊)22 “3S”技术在贵州省森林资源清查中的应用.《林业资源管理》,2003(3) P31,第2作者 (国家林业局调查规划设计院,核心期刊)23 航空像片上任意点比例尺的测算.《遥感技术与应用》,2003(3) P149,第1作者(中科院遥感联合中心主办,影响因子:)24 多项式法航空像片的几何纠正.《北京林学大学学报》,2003(2) P58,第1作者(北京林业大学主办,EI index,影响因子:)25 株洲主要地类地物波谱特征研究.《中南林学院学报》,2003(1) P93,第1作者(中南林学院主办,核心期刊)26 ANN在森林资源管理中的应用.《世界林业研究》,2002(3),第1作者 (中国林科院主办,核心期刊)27 遥感技术在我国林业中的应用与展望.《遥感信息》,2002(1),第1作者(科技部国家遥感中心、中国测绘科学研究院主办,影响因子:)28 澧水北源森林资源水文状况评析.《湖南林业科技》,2002(2) P8,第1作者(湖南省林科院主办)29 加拿大林业教育和林业科研.《世界林业研究》,2001(4),第1作者 (中国林科院主办,核心期刊)30 The Role of Raster Pixel Size and Shape in Geographic Information System. 《遥感信息》,2001(1) P21,独立(科技部国家遥感中心、中国测绘科学研究院主办,影响因子:)
基于频域多尺度小波变换的CR图像超分辨率增强,吉林大学学报(信息科学版),2009(3) (通讯作者)李哲,黄廉卿,李鹤:”基于数学形态学的CR图像实时快速分割
图像分割是图像处理与计算机视觉的基本问题之一,是图像处理图像分析的关键步骤。我整理了图像分割技术论文,欢迎阅读! 图像分割技术研究 摘要:图像分割是图像处理与计
资料是构成论文写作的基础。在确定选题、进行设计以及必要的观察与实验之后,做好资料的搜集与处理工作,是为论文写作所做的进一步准备。论文写作资料可分为第一手资料与第
1 基于形态学运算的星空图像分割 主要内容: 在获取星图像的过程中,由于某些因素的影响,获得的星图像存在噪声,而且星图像的背景经常是不均匀的,为星图像的分割造成
函数图像的教学研究论文 摘要: 数形结合的思想是数学中一种重要的思想方法,而在函数的教学中把刻画数量关系的数和具体直观的图形有机结合,用代数的语言揭示几何要素及