论文原文:
YOLO(you only look once)是继RCNN、faster-RCNN之后,又一里程碑式的目标检测算法。yolo在保持不错的准确度的情况下,解决了当时基于深度学习的检测中的痛点---速度问题。下图是各目标检测系统的检测性能对比:
如果说faster-RCNN是真正实现了完全基于深度学习的端到端的检测,那么yolo则是更进一步,将 目标区域预测 与 目标类别判断 整合到单个神经网络模型中。各检测算法结构见下图:
每个网格要预测B个bounding box,每个bounding box除了要回归自身的位置之外,还要附带预测一个confidence值。这个confidence代表了所预测的box中含有object的置信度和这个box预测的有多准两重信息,其值是这样计算的:
其中如果有object落在一个grid cell里,第一项取1,否则取0。第二项是预测的bounding box和实际的groundtruth之间的IoU值。
每个bounding box要预测(x, y, w, h)和confidence共5个值,每个网格还要预测一个类别信息,记为C类。即SxS个网格,每个网格除了要预测B个bounding box外,还要预测C个categories。输出就是S x S x (5*B+C)的一个tensor。(注意:class信息是针对每个网格的,即一个网格只预测一组类别而不管里面有多少个bounding box,而confidence信息是针对每个bounding box的。)
举例说明: 在PASCAL VOC中,图像输入为448x448,取S=7,B=2,一共有20个类别(C=20)。则输出就是7x7x30的一个tensor。整个网络结构如下图所示:
在test的时候,每个网格预测的class信息和bounding box预测的confidence信息相乘,就得到每个bounding box的class-specific confidence score:
等式左边第一项就是每个网格预测的类别信息,第二三项就是每个bounding box预测的confidence。这个乘积即encode了预测的box属于某一类的概率,也有该box准确度的信息。
得到每个box的class-specific confidence score以后,设置阈值,滤掉得分低的boxes,对保留的boxes进行NMS(非极大值抑制non-maximum suppresssion)处理,就得到最终的检测结果。
1、每个grid因为预测两个bounding box有30维(30=2*5+20),这30维中,8维是回归box的坐标,2维是box的confidence,还有20维是类别。其中坐标的x,y用bounding box相对grid的offset归一化到0-1之间,w,h除以图像的width和height也归一化到0-1之间。
2、对不同大小的box预测中,相比于大box预测偏一点,小box预测偏一点肯定更不能被忍受的。而sum-square error loss中对同样的偏移loss是一样。为了缓和这个问题,作者用了一个比较取巧的办法,就是将box的width和height取平方根代替原本的height和width。这个参考下面的图很容易理解,小box的横轴值较小,发生偏移时,反应到y轴上相比大box要大。其实就是让算法对小box预测的偏移更加敏感。
3、一个网格预测多个box,希望的是每个box predictor专门负责预测某个object。具体做法就是看当前预测的box与ground truth box中哪个IoU大,就负责哪个。这种做法称作box predictor的specialization。
4、损失函数公式见下图:
在实现中,最主要的就是怎么设计损失函数,坐标(x,y,w,h),confidence,classification 让这个三个方面得到很好的平衡。简单的全部采用sum-squared error loss来做这件事会有以下不足:
解决方法:
只有当某个网格中有object的时候才对classification error进行惩罚。只有当某个box predictor对某个ground truth box负责的时候,才会对box的coordinate error进行惩罚,而对哪个ground truth box负责就看其预测值和ground truth box的IoU是不是在那个cell的所有box中最大。
作者采用ImageNet 1000-class 数据集来预训练卷积层。预训练阶段,采用网络中的前20卷积层,外加average-pooling层和全连接层。模型训练了一周,获得了top-5 accuracy为0.88(ImageNet2012 validation set),与GoogleNet模型准确率相当。
然后,将模型转换为检测模型。作者向预训练模型中加入了4个卷积层和两层全连接层,提高了模型输入分辨率(224×224->448×448)。顶层预测类别概率和bounding box协调值。bounding box的宽和高通过输入图像宽和高归一化到0-1区间。顶层采用linear activation,其它层使用 leaky rectified linear。
作者采用sum-squared error为目标函数来优化,增加bounding box loss权重,减少置信度权重,实验中,设定为\lambda _{coord} =5 and\lambda _{noobj}=0.5 。
作者在PASCAL VOC2007和PASCAL VOC2012数据集上进行了训练和测试。训练135轮,batch size为64,动量为0.9,学习速率延迟为0.0005。Learning schedule为:第一轮,学习速率从0.001缓慢增加到0.01(因为如果初始为高学习速率,会导致模型发散);保持0.01速率到75轮;然后在后30轮中,下降到0.001;最后30轮,学习速率为0.0001。
作者还采用了dropout和 data augmentation来预防过拟合。dropout值为0.5;data augmentation包括:random scaling,translation,adjust exposure和saturation。
YOLO模型相对于之前的物体检测方法有多个优点:
1、 YOLO检测物体非常快
因为没有复杂的检测流程,只需要将图像输入到神经网络就可以得到检测结果,YOLO可以非常快的完成物体检测任务。标准版本的YOLO在Titan X 的 GPU 上能达到45 FPS。更快的Fast YOLO检测速度可以达到155 FPS。而且,YOLO的mAP是之前其他实时物体检测系统的两倍以上。
2、 YOLO可以很好的避免背景错误,产生false positives
不像其他物体检测系统使用了滑窗或region proposal,分类器只能得到图像的局部信息。YOLO在训练和测试时都能够看到一整张图像的信息,因此YOLO在检测物体时能很好的利用上下文信息,从而不容易在背景上预测出错误的物体信息。和Fast-R-CNN相比,YOLO的背景错误不到Fast-R-CNN的一半。
3、 YOLO可以学到物体的泛化特征
当YOLO在自然图像上做训练,在艺术作品上做测试时,YOLO表现的性能比DPM、R-CNN等之前的物体检测系统要好很多。因为YOLO可以学习到高度泛化的特征,从而迁移到其他领域。
尽管YOLO有这些优点,它也有一些缺点:
1、YOLO的物体检测精度低于其他state-of-the-art的物体检测系统。
2、YOLO容易产生物体的定位错误。
3、YOLO对小物体的检测效果不好(尤其是密集的小物体,因为一个栅格只能预测2个物体)。
目标检测(object detection)是计算机视觉中非常重要的一个领域。在卷积神经网络出现之前,都利用一些传统方法手动提取图像特征进行目标检测及定位,这些方法不仅耗时而且性能较低。而在卷积神经网络出现之后,目标检测领域发生了翻天覆地的变化。最著名的目标检测系统有RCNN系列、YOLO和SSD,本文将介绍RCNN系列的开篇作RCNN。 RCNN系列的技术演进过程可参见 基于深度学习的目标检测技术演进:R-CNN、Fast R-CNN、Faster R-CNN 。 目标检测分为两步:第一步是对图像进行分类,即图像中的内容是什么;第二步则是对图像进行定位,找出图像中物体的具体位置。简单来说就是图像里面有什么,位置在哪。 然而,由于不同图片中物体出现的大小可能不同(多尺度),位置也可能不同,而且摆放角度,姿态等都可以不同,同时一张图片中还可以出现多个类别。这使得目标检测任务异常艰难。上面任务用专业的说法就是:图像识别+定位两个不同的分支分别完成不同的功能,分类和定位。回归(regression)分支与分类分支(classification)共享网络卷积部分的参数值。 还是刚才的分类识别+回归定位思路。只是现在我们提前先取好不同位置的框,然后将这个框输入到网络中而不是像思路一将原始图像直接输入到网络中。然后计算出这个框的得分,取得分最高的框。 如上,对于同一个图像中猫的识别定位。分别取了四个角四个框进行分类和回归。其得分分别为0.5,0.75,0.6,0.8,因此右下角得分最高,选择右下角的黑框作为目标位置的预测(这里即完成了定位任务)。 这里还有一个问题——检测位置时的框要怎么取,取多大?在上面我们是在257x257的图像中取了221x221的4个角。以不同大小的窗口从左上角到右下角依次扫描的话,数据量会非常大。而且,如果考虑多尺度问题的话,还需要在将图像放缩到不同水平的大小来进行计算,这样又大大增加了计算量。如何取框这个问题可以说是目标检测的核心问题之一了,RCNN,fast RCNN以及faster RCNN对于这个问题的解决办法不断地进行优化,这个到了后面再讲。 总结一下思路: 对于一张图片,用各种大小的框将图片截取出来,输入到CNN,然后CNN会输出这个框的类别以及其位置得分。 对于检测框的选取,一般是采用某种方法先找出可能含有物体的框(也就是候选框,比如1000个候选框),这些框是可以互相重叠互相包含的,这样我们就可以避免暴力枚举所有框了。讲完了思路,我们下面具体仔细来看看RCNN系列的实现,本篇先介绍RCNN的方法。 R-CNN相比于之前的各种目标检测算法,不仅在准确率上有了很大的提升,在运行效率上同样提升很大。R-CNN的过程分为4个阶段: 在前面我们已经简单介绍了selective search方法,通过这个方法我们筛选出了2k左右的候选框。然而搜索出的矩形框大小是不同的。而在AlexNet中由于最后全连接层的存在,对于图像尺寸有固定的要求,因此在将候选框输入之前,作者对这些候选框的大小进行了统一处理——放缩到了统一大小。文章中作者使用的处理方法有两种: (1)各向异性缩放因为图片扭曲可能会对后续CNN模型训练产生影响,于是作者也测试了各向同性缩放的方法。有两种方法: 此外,作者对于bounding box还尝试了padding处理,上面的示意图中第1、3行就是结合了padding=0,第2、4行结果采用padding=16的结果。经过最后的试验,作者发现采用各向异性缩放、padding=16的精度最高。 卷积神经网络训练分为两步:(1)预训练;(2)fine-tune。 先在一个大的数据集上面训练模型(R-CNN中的卷机模型使用的是AlexNet),然后利用这个训练好的模型进行fine-tune(或称为迁移学习),即使用这个预训练好的模型参数初始化模型参数,然后在目标数据集上面进行训练。 此外,在训练时,作者还尝试采用不同层数的全连接层,发现一个全连接层比两个全连接层效果要好,这可能是因为使用两个全连接层后过拟合导致的。 另一个比较有意思的地方是:对于CNN模型,卷积层学到的特征其实就是基础的共享特征提取层,类似于传统的图像特征提取算法。而最后的全连接层学到的则是针对特定任务的特征。譬如对于人脸性别识别来说,一个CNN模型前面的卷积层所学习到的特征就类似于学习人脸共性特征,然后全连接层所学习的特征就是针对性别分类的特征了。 最后,利用训练好的模型对候选框提取特征。 关于正负样本的问题:由于选取的bounding box不可能与人工label的完全相同,因此在CNN训练阶段需要设置IOU阈值来为bounding box打标签。在文章中作者将阈值设置为0.5,即如果候选框bounding box与人工label的区域重叠面积大于0.5,则将其标注为物体类别(正样本),否则我们就把他当做背景类别(负样本)。 作者针对每一个类别都训练了一个二分类的SVM。这里定义正负样本的方法与上面卷积网络训练的定义方法又不相同。作者在文章中尝试了多种IoU阈值(0.1~0.5)。最后通过训练发现,IoU阈值为0.3的时候效果最好(选择为0精度下降了4个百分点,选择0.5精度下降了5个百分点)。即当IoU小于0.3的时候我们将其视为负样本,否则为正样本。 目标检测问题的衡量标准是重叠面积:许多看似准确的检测结果,往往因为候选框不够准确,重叠面积很小。故需要一个位置精修步骤。在实现边界回归的过程中发现了两个微妙的问题。第一是正则化是重要的:我们基于验证集,设置λ=1000。第二个问题是,选择使用哪些训练对(P,G)时必须小心。直观地说,如果P远离所有的检测框真值,那么将P转换为检测框真值G的任务就没有意义。使用像P这样的例子会导致一个无望的学习问题。因此,只有当提案P至少在一个检测框真值附近时,我们才执行学习任务。“附近”即,将P分配给具有最大IoU的检测框真值G(在重叠多于一个的情况下),并且仅当重叠大于阈值(基于验证集,我们使用的阈值为0.6)。所有未分配的提案都被丢弃。我们为每个目标类别执行一次,以便学习一组特定于类别的检测框回归器。 在测试时,我们对每个提案进行评分,并预测其新的检测框一次。原则上,我们可以迭代这个过程(即重新评估新预测的检测框,然后从它预测一个新的检测框,等等)。但是,我们发现迭代不会改进结果。 使用selective search的方法在测试图片上提取2000个region propasals ,将每个region proposals归一化到227x227,然后再CNN中正向传播,将最后一层得到的特征提取出来。然后对于每一个类别,使用为这一类训练的SVM分类器对提取的特征向量进行打分,得到测试图片中对于所有region proposals的对于这一类的分数,再使用贪心的非极大值抑制(NMS)去除相交的多余的框。再对这些框进行canny边缘检测,就可以得到bounding-box(then B-BoxRegression)。 参考: Rich feature hierarchies for accurate object detection and semantic segmentation. RCNN-将CNN引入目标检测的开山之作-晓雷的文章 基于深度学习的目标检测技术演进:R-CNN、Fast R-CNN、Faster R-CNN R-CNN 论文翻译
确实,不知道是不是水军呀。具体回答你这个问题,至少要几千个子才能说明白。
深度嵌入聚类算法研究 基于机器视觉的行人重识别算法的分析与实现 基于动力学模型的属性网络重叠社团发现 基于Spring-Boot框架的一体化运维监控应用的研究与实现 Android系统中基于手写密码与笔迹信息的综合认证技术研究 公交线路准点预测方法研究 基于深度学习的医学图像分割算法研究 基于CNN的高速公路流量预测 服务器安全防护与管理综合平台实现 JavaScript全栈视频播放系统设计与实现快速行人检测算法的研发 基于数据挖掘的药物分子筛选方法研究 基于消息队列的自定义审批流程管理系统设计与实现 基于CRF的初等数学命名实体识别 基于多尺度 CNN的图片语义分割研究 基于图像分割技术的连通区域提取算法的研究 基于背景因素推理的目标关系识别算法研究与实现 基于智能移动设备的非接触式人机交互系统设计与实现 分布式数据库物理查询计划调度优化算法研究 基于遮挡的人脸特征提取算法研究与实现 表情识别应用系统的设计与实现 基于CloudSim的云计算与大数据系统的可靠性仿真研究 多源数据库数据采集系统设计与实现 基于Android和WiFi的无线自组织网络P2P通信系统设计与实现 矩阵分解中的流形结构学习研究 基于无监督的OSN恶意账号检测 深度学习在基于视频的人体动作识别上的应用 用户评分的隐式成分信息的研究 线性规划求解算法的实现与应用 基于freeRTOS的嵌入式操作系统分析与实验设计 基于深度强化学习的信息检索的研究与实现 CPM语言编译链接系统的实现 基于SSD的Pascal Voc数据集目标检测设计与实现 复杂网络关键节点识别算法比较研究 基于对抗网络和知识表示的可视问答 基于FPGA实现存储器及虚拟存储器管理 匿名可信身份共享区块链的设计与实现 基于图像的场景分类算法的设计与实现 恶意APK静态检测技术研究与实现 车辆再识别技术研究
原文: Scalable Object Detection using Deep Neural Networks——学术范 最近,深度卷积神经网络在许多图像识别基准上取得了最先进的性能,包括ImageNet大规模视觉识别挑战(ILSVRC-2012)。在定位子任务中获胜的模型是一个网络,它预测了图像中每个对象类别的单个边界框和置信度得分。这样的模型捕获了围绕对象的整幅图像上下文,但如果不天真地复制每个实例的输出数量,就无法处理图像中同一对象的多个实例。在这篇论文中提出了一个显著性启发的神经网络检测模型,它预测了一组与类无关的边界框,每个框有一个分数,对应于它包含任何感兴趣的对象的可能性。该模型自然地为每个类处理数量可变的实例,并允许在网络的最高级别上进行跨类泛化。 目标检测是计算机视觉的基本任务之一。一个解决这个问题的通用范例是训练在子图像上操作的对象检测器,并在所有的场所和尺度上以详尽的方式应用这些检测器。这一范例被成功地应用于经过区别训练的可变形零件模型(DPM)中,以实现检测任务的最新结果。对所有可能位置和尺度的穷举搜索带来了计算上的挑战。随着类数量的增加,这个挑战变得更加困难,因为大多数方法都训练每个类单独的检测器。为了解决这个问题,人们提出了多种方法,从检测器级联到使用分割提出少量的对象假设。 关于对象检测的文献非常多,在本节中,我们将重点讨论利用类不可知思想和解决可伸缩性的方法。 许多提出的检测方法都是基于基于部件的模型,最近由于有区别学习和精心设计的特征,已经取得了令人印象深刻的性能。然而,这些方法依赖于在多个尺度上详尽地应用零件模板,这是非常昂贵的。此外,它们在类的数量上是可伸缩的,这对像ImageNet这样的现代数据集来说是一个挑战。 为了解决前一个问题,Lampert等人使用分支绑定策略来避免计算所有可能的对象位置。为了解决后一个问题,Song et al.使用了一个低维部件基,在所有对象类中共享。基于哈希算法的零件检测也取得了良好的结果。 另一种不同的工作,与我们的工作更接近,是基于对象可以本地化的想法,而不必知道它们的类。其中一些方法建立在自底向上无阶级分割[9]的基础上。通过这种方式得到的片段可以使用自上而下的反馈进行评分。基于同样的动机,Alexe等人使用一种廉价的分类器对对象假设是否为对象进行评分,并以这种方式减少了后续检测步骤的位置数量。这些方法可以被认为是多层模型,分割作为第一层,分割分类作为后续层。尽管它们编码了已证明的感知原理,但我们将表明,有更深入的模型,充分学习可以导致更好的结果。 最后,我们利用了DeepLearning的最新进展,最引人注目的是Krizhevsky等人的工作。我们将他们的边界盒回归检测方法扩展到以可扩展的方式处理多个对象的情况。然而,基于dnn的回归已经被Szegedy等人应用到对象掩模中。最后一种方法实现了最先进的检测性能,但由于单个掩模回归的成本,不能扩展到多个类。 我们的目标是通过预测一组表示潜在对象的边界盒来实现一种与类无关的可扩展对象检测。更准确地说,我们使用了深度神经网络(DNN),它输出固定数量的包围盒。此外,它为每个盒子输出一个分数,表示这个盒子包含一个对象的网络信任度。 为了形式化上述思想,我们将i-thobject框及其相关的置信度编码为最后一网层的节点值: Bounding box: 我们将每个框的左上角和右下角坐标编码为四个节点值,可以写成vectorli∈R4。这些坐标是归一化的w. r. t.图像尺寸,以实现图像绝对尺寸的不变性。每个归一化坐标是由最后一层的线性变换产生的。 Confidence: 置信度:包含一个对象的盒子的置信度得分被编码为单个节点valueci∈[0,1]。这个值是通过最后一个隐藏层的线性变换产生的,后面跟着一个sigmoid。 我们可以组合边界盒位置sli,i∈{1,…K}为一个线性层。同样,我们可以将所有置信区间ci,i∈{1,…K}作为一个s型层的输出。这两个输出层都连接到最后一个隐藏层 在推理时,我们的算法生成kbound盒。在我们的实验中,我们使用ek = 100和K= 200。如果需要,我们可以使用置信分数和非最大抑制在推理时获得较少数量的高置信框。这些盒子应该代表对象。因此,它们可以通过后续的分类器进行分类,实现目标检测。由于盒子的数量非常少,我们可以提供强大的分类器。在我们的实验中,我们使用另一个dnn进行分类。 我们训练一个DNN来预测每个训练图像的边界框及其置信度得分,以便得分最高的框与图像的groundtruth对象框很好地匹配。假设对于一个特定的训练例子,对象被标记为boundingboxesgj,j∈{1,…,M}。在实践中,pre- dictionary的数量远远大于groundtruthboxm的数量。因此,我们试图只优化与地面真实最匹配的预测框子集。我们优化他们的位置,以提高他们的匹配度,最大化他们的信心。与此同时,我们将剩余预测的置信度最小化,这被认为不能很好地定位真实对象。为了达到上述目的,我们为每个训练实例制定一个分配问题。Wexij∈{0,1}表示赋值:xij= 1,如果第i个预测被赋值给第j个真对象。这项任务的目标可以表示为 其中,我们使用标准化边界框坐标之间的el2距离来量化边界框之间的不同。此外,我们希望根据分配x优化盒子的可信度。最大化指定预测的置信度可以表示为 最终的损失目标结合了匹配损失和信心损失 受式1的约束。α平衡了不同损失条款的贡献。 对于每个训练例子,我们通过解决一个最佳的赋值x*的预测到真实的盒子 约束执行赋值解决方案。这是二部匹配的一种变体,是一种多项式复杂度匹配。在我们的应用程序中,匹配是非常便宜的——每幅图像中标记的对象的数量少于一打,而且在大多数情况下只有很少的对象被标记。然后,通过反向传播优化网络参数。例如,反向传播算法的一阶导数计算w、r、t、l和c 尽管上述定义的损失在原则上是足够的,但三次修改使其有可能更快地达到更好的准确性。第一个修改是对地面真实位置进行聚类,并找到这样的聚类/质心,我们可以使用这些聚类/质心作为每个预测位置的先验。因此,鼓励学习算法为每个预测位置学习一个残差到一个先验。 第二个修改涉及到在匹配过程中使用这些先验:不是将N个groundtruth位置与K个预测进行匹配,而是在K个先验和groundtruth之间找到最佳匹配。一旦匹配完成,就会像之前一样计算目标的置信度。此外,位置预测损失也不变:对于任何一对匹配的(目标,预测)位置,其损失定义为groundtruth和对应于匹配先验的坐标之间的差值。我们把使用先验匹配称为先验匹配,并假设它促进了预测的多样化。 需要注意的是,尽管我们以一种与类无关的方式定义了我们的方法,但我们可以将它应用于预测特定类的对象盒。要做到这一点,我们只需要在类的边框上训练我们的模型。此外,我们可以预测每个类的kbox。不幸的是,这个模型的参数数量会随着类的数量线性增长。此外,在一个典型的设置中,给定类的对象数量相对较少,这些参数中的大多数会看到很少有相应梯度贡献的训练示例。因此,我们认为我们的两步过程——首先本地化,然后识别——是一个更好的选择,因为它允许使用少量参数利用同一图像中多个对象类型的数据 我们使用的本地化和分类模型的网络架构与[10]使用的网络架构相同。我们使用Adagrad来控制学习速率衰减,128的小批量,以及使用多个相同的网络副本进行并行分布式训练,从而实现更快的收敛。如前所述,我们在定位损失中使用先验——这些是使用训练集上的均值来计算的。我们还使用α = 0.3来平衡局部化和置信度损失。定位器可以输出用于推断的种植区以外的坐标。坐标被映射和截断到最后的图像区域。另外,使用非最大抑制对盒进行修剪,Jaccard相似度阈值为0.5。然后,我们的第二个模型将每个边界框分类为感兴趣的对象或“背景”。为了训练我们的定位器网络,我们从训练集中生成了大约3000万幅图像,并对训练集中的每幅图像应用以下步骤。最后,样品被打乱。为了训练我们的本地化网络,我们通过对训练集中的每一幅图像应用以下步骤,从训练集中生成了大约3000万幅图像。对于每幅图像,我们生成相同数量的平方样本,使样本总数大约为1000万。对于每幅图像,样本被桶状填充,这样,对于0 - 5%、5 - 15%、15 - 50%、50 - 100%范围内的每个比例,都有相同数量的样本,其中被包围框覆盖的比例在给定范围内。训练集和我们大多数超参数的选择是基于过去使用非公开数据集的经验。在下面的实验中,我们没有探索任何非标准数据生成或正则化选项。在所有的实验中,所有的超参数都是通过对训练集。 Pascal Visual Object Classes (VOC)挑战是最常用的对象检测算法基准。它主要由复杂的场景图像组成,其中包含了20种不同的对象类别的边界框。在我们的评估中,我们关注的是2007版VOC,为此发布了一个测试集。我们通过培训VOC 2012展示了结果,其中包含了大约。11000张图片。我们训练了一个100框的定位器和一个基于深度网络的分类器。 我们在一个由1000万作物组成的数据集上训练分类器,该数据集重叠的对象至少为0.5 jaccard重叠相似度。这些作物被标记为20个VOC对象类中的一个。•2000万负作物与任何物体盒最多有0.2个Jaccard相似度。这些作物被贴上特殊的“背景”类标签。体系结构和超参数的选择遵循。 在第一轮中,定位器模型应用于图像中最大-最小中心方形作物。作物的大小调整到网络输入大小is220×220。单次通过这个网络,我们就可以得到上百个候选日期框。在对重叠阈值为0.5的非最大抑制后,保留评分最高的前10个检测项,并通过21路分类器模型分别通过网络进行分类。最终的检测分数是给定盒子的定位分数乘以分类器在作物周围的最大方形区域上评估的分数的乘积。这些分数通过评估,并用于计算精确查全曲线。 首先,我们分析了本地化器在隔离状态下的性能。我们给出了被检测对象的数量,正如Pascal检测标准所定义的那样,与生成的包围框的数量相对比。在图1中,我们展示了使用VOC2012进行训练所获得的结果。此外,我们通过使用图像的最大中心面积(max-center square crop)作为输入以及使用两个尺度(second scale)来给出结果:最大中心面积(max-center crop)的第二个尺度(select3×3windows的大小为图像大小的60%)正如我们所看到的,当使用10个边界框的预算时,我们可以用第一个模型本地化45.3%的对象,用第二个模型本地化48%的对象。这显示出比其他报告的结果更好的性能,例如对象度算法达到42%[1]。此外,这个图表显示了在不同分辨率下观察图像的重要性。虽然我们的算法通过使用最大中心作物获得了大量的对象,但当使用更高分辨率的图像作物时,我们获得了额外的提升。进一步,我们用21-way分类器对生成的包围盒进行分类,如上所述。表1列出了VOC 2007的平均精度(APs)。达到的平均AP是0.29,与先进水平相当。注意,我们的运行时间复杂度非常低——我们只使用top10框。示例检测和全精度召回曲线分别如图2和图3所示。值得注意的是,可视化检测是通过仅使用最大中心方形图像裁剪,即使用全图像获得的。然而,我们设法获得了相对较小的对象,例如第二行和第二列的船,以及第三行和第三列的羊。 在本工作中,我们提出了一种新的方法来定位图像中的对象,该方法可以预测多个边界框的时间。该方法使用深度卷积神经网络作为基本特征提取和学习模型。它制定了一个能够利用可变数量的groundtruth位置的多箱定位成本。在“一个类一个箱”方法的情况下,对1000个盒子进行非max-suppression,使用与给定图像中感兴趣的DeepMulti-Box方法相同的准则,并学习在未见图像中预测这些位置。 我们在VOC2007和ILSVRC-2012这两个具有挑战性的基准上给出了结果,在这两个基准上,所提出的方法具有竞争力。此外,该方法能够很好地预测后续分类器将探测到的位置。我们的结果表明,deepmultibox的方法是可扩展的,甚至可以在两个数据集之间泛化,就能够预测感兴趣的定位,甚至对于它没有训练的类别。此外,它能够捕获同一类物体的多种情况,这是旨在更好地理解图像的算法的一个重要特征。 在未来,我们希望能够将定位和识别路径折叠到一个单一的网络中,这样我们就能够在一个通过网络的一次性前馈中提取位置和类标签信息。即使在其当前状态下,双通道过程(本地化网络之后是分类网络)也会产生5-10个网络评估,每个评估的速度大约为1个CPU-sec(现代机器)。重要的是,这个数字并不与要识别的类的数量成线性关系,这使得所提出的方法与类似dpm的方法非常有竞争力。
论文原文:
YOLO(you only look once)是继RCNN、faster-RCNN之后,又一里程碑式的目标检测算法。yolo在保持不错的准确度的情况下,解决了当时基于深度学习的检测中的痛点---速度问题。下图是各目标检测系统的检测性能对比:
如果说faster-RCNN是真正实现了完全基于深度学习的端到端的检测,那么yolo则是更进一步,将 目标区域预测 与 目标类别判断 整合到单个神经网络模型中。各检测算法结构见下图:
每个网格要预测B个bounding box,每个bounding box除了要回归自身的位置之外,还要附带预测一个confidence值。这个confidence代表了所预测的box中含有object的置信度和这个box预测的有多准两重信息,其值是这样计算的:
其中如果有object落在一个grid cell里,第一项取1,否则取0。第二项是预测的bounding box和实际的groundtruth之间的IoU值。
每个bounding box要预测(x, y, w, h)和confidence共5个值,每个网格还要预测一个类别信息,记为C类。即SxS个网格,每个网格除了要预测B个bounding box外,还要预测C个categories。输出就是S x S x (5*B+C)的一个tensor。(注意:class信息是针对每个网格的,即一个网格只预测一组类别而不管里面有多少个bounding box,而confidence信息是针对每个bounding box的。)
举例说明: 在PASCAL VOC中,图像输入为448x448,取S=7,B=2,一共有20个类别(C=20)。则输出就是7x7x30的一个tensor。整个网络结构如下图所示:
在test的时候,每个网格预测的class信息和bounding box预测的confidence信息相乘,就得到每个bounding box的class-specific confidence score:
等式左边第一项就是每个网格预测的类别信息,第二三项就是每个bounding box预测的confidence。这个乘积即encode了预测的box属于某一类的概率,也有该box准确度的信息。
得到每个box的class-specific confidence score以后,设置阈值,滤掉得分低的boxes,对保留的boxes进行NMS(非极大值抑制non-maximum suppresssion)处理,就得到最终的检测结果。
1、每个grid因为预测两个bounding box有30维(30=2*5+20),这30维中,8维是回归box的坐标,2维是box的confidence,还有20维是类别。其中坐标的x,y用bounding box相对grid的offset归一化到0-1之间,w,h除以图像的width和height也归一化到0-1之间。
2、对不同大小的box预测中,相比于大box预测偏一点,小box预测偏一点肯定更不能被忍受的。而sum-square error loss中对同样的偏移loss是一样。为了缓和这个问题,作者用了一个比较取巧的办法,就是将box的width和height取平方根代替原本的height和width。这个参考下面的图很容易理解,小box的横轴值较小,发生偏移时,反应到y轴上相比大box要大。其实就是让算法对小box预测的偏移更加敏感。
3、一个网格预测多个box,希望的是每个box predictor专门负责预测某个object。具体做法就是看当前预测的box与ground truth box中哪个IoU大,就负责哪个。这种做法称作box predictor的specialization。
4、损失函数公式见下图:
在实现中,最主要的就是怎么设计损失函数,坐标(x,y,w,h),confidence,classification 让这个三个方面得到很好的平衡。简单的全部采用sum-squared error loss来做这件事会有以下不足:
解决方法:
只有当某个网格中有object的时候才对classification error进行惩罚。只有当某个box predictor对某个ground truth box负责的时候,才会对box的coordinate error进行惩罚,而对哪个ground truth box负责就看其预测值和ground truth box的IoU是不是在那个cell的所有box中最大。
作者采用ImageNet 1000-class 数据集来预训练卷积层。预训练阶段,采用网络中的前20卷积层,外加average-pooling层和全连接层。模型训练了一周,获得了top-5 accuracy为0.88(ImageNet2012 validation set),与GoogleNet模型准确率相当。
然后,将模型转换为检测模型。作者向预训练模型中加入了4个卷积层和两层全连接层,提高了模型输入分辨率(224×224->448×448)。顶层预测类别概率和bounding box协调值。bounding box的宽和高通过输入图像宽和高归一化到0-1区间。顶层采用linear activation,其它层使用 leaky rectified linear。
作者采用sum-squared error为目标函数来优化,增加bounding box loss权重,减少置信度权重,实验中,设定为\lambda _{coord} =5 and\lambda _{noobj}=0.5 。
作者在PASCAL VOC2007和PASCAL VOC2012数据集上进行了训练和测试。训练135轮,batch size为64,动量为0.9,学习速率延迟为0.0005。Learning schedule为:第一轮,学习速率从0.001缓慢增加到0.01(因为如果初始为高学习速率,会导致模型发散);保持0.01速率到75轮;然后在后30轮中,下降到0.001;最后30轮,学习速率为0.0001。
作者还采用了dropout和 data augmentation来预防过拟合。dropout值为0.5;data augmentation包括:random scaling,translation,adjust exposure和saturation。
YOLO模型相对于之前的物体检测方法有多个优点:
1、 YOLO检测物体非常快
因为没有复杂的检测流程,只需要将图像输入到神经网络就可以得到检测结果,YOLO可以非常快的完成物体检测任务。标准版本的YOLO在Titan X 的 GPU 上能达到45 FPS。更快的Fast YOLO检测速度可以达到155 FPS。而且,YOLO的mAP是之前其他实时物体检测系统的两倍以上。
2、 YOLO可以很好的避免背景错误,产生false positives
不像其他物体检测系统使用了滑窗或region proposal,分类器只能得到图像的局部信息。YOLO在训练和测试时都能够看到一整张图像的信息,因此YOLO在检测物体时能很好的利用上下文信息,从而不容易在背景上预测出错误的物体信息。和Fast-R-CNN相比,YOLO的背景错误不到Fast-R-CNN的一半。
3、 YOLO可以学到物体的泛化特征
当YOLO在自然图像上做训练,在艺术作品上做测试时,YOLO表现的性能比DPM、R-CNN等之前的物体检测系统要好很多。因为YOLO可以学习到高度泛化的特征,从而迁移到其他领域。
尽管YOLO有这些优点,它也有一些缺点:
1、YOLO的物体检测精度低于其他state-of-the-art的物体检测系统。
2、YOLO容易产生物体的定位错误。
3、YOLO对小物体的检测效果不好(尤其是密集的小物体,因为一个栅格只能预测2个物体)。
在学术界中,诚实和透明是非常重要的,因此大部分深度学习论文的实验数据都应该是真实可靠的。为了确保数据的真实性,研究人员应该遵循一系列共同约定的实践,比如采用一些常见的数据集,如MNIST、CIFAR、ImageNet等,或者充分公开数据集来源和预处理方法,在论文中详细描述实验步骤和参数设置,并允许其他人重复实验来验证其结果。而这些步骤在学术界中也经常被称为“实验复现”。但是,也存在一些在实验数据上作弊或篡改数据的行为。一些研究人员可能会使用实验结果的最佳情况,而隐藏失败的实验结果,或者通过微调模型或其他方式来优化结果。这种行为是不道德的,也违反了学术界的伦理道德。总的来说,在学术界中,大部分深度学习论文的实验数据都是真实可靠的,但仍需保持警惕,判断这些数据的可靠性需要综合考虑多种因素。
被誉为 深度学习的顶级论文首先,这个来头不小,由位列深度学习三大巨头之二的 Yoshua Bengio 和 Yann LeCun 牵头创办。Yoshua Bengio 是蒙特利尔大学教授,深度学习三巨头之一,他领导蒙特利尔大学的人工智能实验室(MILA)进行 AI 技术的学术研究。MILA 是世界上最大的人工智能研究中心之一,与谷歌也有着密切的合作。而 Yann LeCun 就自不用提,同为深度学习三巨头之一的他现任 Facebook 人工智能研究院(FAIR)院长、纽约大学教授。作为卷积神经网络之父,他为深度学习的发展和创新作出了重要贡献。至于创办 ICLR 的原因何在,雷锋网尝试从 Bengio 和 LeCun 于 ICLR 第一届官网所发布的公开信推测一二。
活体检测是在一些身份验证场景确定对象真实生理特征的方法,在人脸识别应用中,活体检测能通过眨眼、张嘴、摇头、点头等组合动作,使用人脸关键点定位和人脸追踪等技术,验证用户是否为真实活体本人操作。可有效抵御照片、 换脸 、面具、遮挡以及屏幕翻拍等常见的攻击手段,从而帮助用户甄别欺诈行为,保障用户的利益。通俗地讲,就是在人脸识别的过程中证明你确实是个“活人”,不是照片、视频或其他神马,证明你是个人,你就是你。活体检测是依于人脸识别的,人脸活体检测系统V2.0,是一款移动端人脸活体检测软件,通过智能手机或Pad摄像头对准活体人脸,通过近红外算法,不需要动作指令组合(动作包含:眨眨眼、张张嘴),即可确认检测物体是否为活体人脸。支持Android、iOS平台,支持接口二次开发,提供Android开发JAR包,iOS平台.a静态库开发包。技术特色:可靠:人脸活体和静态物体的辨识准确率高达98.8%以上;快速:检测时间小于1秒;同一服务器可以开启多个进程活体检测流程:检测定位人脸,持续跟踪,防止人与人或人与照片的切换。持续检测防止中途切换人,直至验证通过。移动端活体检测SDK应用:互联网金融:人脸登录验证,网上支付安全验证等。银行场景:用户远程开户的身份验证等。驾校场景:考生身份认证,路考过程监督等。楼宇场景:门禁系统身份认证以及人脸识别锁等。运营商场景:SIM卡实名认证,移动支付等。防疲劳识别:识别司机疲劳程度,给予预警信息等。社保验证:针对社保远程开户以及认证等。
取出病变组织的一点点,送交有关科室进行仪器分析,准确性极高。没有疼痛感和伤口。
洋河流域遥感图像土地利用分类方法研究 【摘要】遥感影像分类方法的确定是LUCC研究中的关键步骤。文章以洋河流域为研究区,分别进行了非监督分类和监督分类。针对监督分类结果中存在的误差,对水域、植被、城镇与工矿用地三种类型地物的提取分别选择了综合阈值法、植被指数法、DEM数据辅助分析法进行了改进,结果表明改进后的提取结果较监督分类直接得到的结果有了很大的改善。【关键词】遥感图像;监督分类;综合阈值法;植被指数法【中图分类号】TP79 【文献标识码】A【文章编号】1671-5969(2007)16-0164-03一、研究区域概况及图像资料(一)研究区域概况洋河流域是张家口经济发展的中心地带,水资源相对丰富。洋河发源于山西省阳高县和内蒙古兴和县,是永定河上游的一大支流,流域面积约14600km2 。在张家口市流域面积为9762km2,流经万全县、怀安县、张家口市区、宣化县、宣化区、下花园区、怀来县等,干流全长106 km,在朱官屯于桑干河汇合后流至官厅水库,是官厅水库的重要水源。洋河流域形状东西向较长,南北向较短,地形总趋势西北高、东南低。流域的东北、北部和西北沿坝头一带海拔高程1200~1500m之间,西部和南部边界海拔高程一般在500~1000m之间。流域内80%以上为丘陵山区,绝大部分为荒山秃岭。流域内大部分为黄色沙壤土,并有部分砂砾土及黄粘土,沿河川地层厚且较肥沃[1]。(二)信息源遥感信息源的选择要综合考虑其光谱分辨率、空间分辨率、时间分辨率等因素, 这是利用遥感图像进行土地利用分类的关键问题。美国的Landsat TM 图像是当前应用最为广泛的卫星遥感信息源之一,它可提供7个波段的信息, 空间分辨率为30~120m。TM数据源各波段各有特点,可进行不同地物类型的信息提取。相关资料表明TM遥感数据各波段间的信息相关关系为:TM1与TM2,TM5与TM7高度相关,相关系数达0.95以上,信息冗余大,可以考虑不选取TM1波段。另外由于第6个波段的分辨率为120m,不利于地物信息的提取,所以亦不选取TM6波段。一般来说, 选择图像类型时,应考虑研究区域的大小、研究的目的,以及要达到的精度要求,另外不同时相遥感图像的选择对分类精度也具有很大的影响。为了能把水域、城市与工矿用地、林地、耕地、裸地区分开,以洋河流域1987年9月17日的TM图像为信息源进行研究。本文中所使用的遥感图像处理工具为美国ERDAS公司的ERDAS IMAGINE8.4软件,它是一个功能完整的、集遥感与地理信息系统于一体的专业软件,具有数据预处理、图像解译、图像分类、矢量功能、虚拟gis等多个功能。二、现有遥感图像土地利用分类的主要方法及其分析遥感图像土地利用分类就是利用计算机通过对遥感图像中各类地物的光谱信息和空间信息进行分析,选择特征,并用一定的手段将特征空间划分为互不重叠的子空间,然后将图像中的各个像元划归到各个子空间中以实现分类[2]。按照是否有已知训练样本的分类数据,将其分为非监督分类和监督分类。它们最大的区别在于监督分类首先给定类别,而非监督分类则由图像数据本身的统计特征来确定。(一)非监督分类非监督分类是在多光谱特征空间中通过数字操作搜索像元光谱属性的自然群组的过程,这种聚类过程生成一副有m个光谱类组成的分类图。然后分析人员根据后验知识将光谱类划分或转换成感兴趣的专题信息类[3]。洋河流域内有很多山地,在图像上会产生大量的阴影,导致了像元灰度值的空间变化,这对分类结果有很大的影响。为此可以通过比值运算来去除阴影的影响,使向阳处和背阴处都毫不例外地只与地物的反射率的比值有关。常用算法:近红外波段(TM4)/红外波段(TM3),这样所得到的效果比较好,从原始图像和比值运算后的图像(图像略)中,可以清楚地看到山体阴面的阴影得到了有效的去除。经过比值运算后, 就可以对图像进行非监督分类。得到的分类结果如图1所示。非监督分类只根据地物的光谱特征进行分类,受人为因素的影响较少,不需要对地面信息有详细的了解,但由于“同物异谱、异物同谱”等现像的存在,其结果一般不如监督分类令人满意。比如官厅水库旁边的大量建筑物被分到水体一类。是因为在TM3波段上,水体和建筑物的灰度值相近, 同样在TM7波段上,裸山和建筑物的灰度值也相近。总之,在TM的6个波段上,无论采用哪个波段进行非监督分类,总有几种地物的光谱值接近,因此单纯依靠计算机自动分类取得很好的效果是非常困难的。
摄影测量与遥感技术发展论文主要通过对摄影技术与遥感技术的发展进行了研究,并对其在各个方面的运用进行了论述。
摄影测量与遥感技术发展论文【1】
摘要:随着经济的不断发展,科学的不断进步,摄影测量与遥感技术因其运用范围广、作用大而走上了逐渐发展的道路,并且对国民经济生活起着重要的影响。
关键词:摄影测量;遥感技术;发展;应用
摄影测量与遥感技术被划分在地球空间信息科学的范畴内,它在获取地球表面、环境等信息时是通过非接触成像传感器来实现的,并对其进行分析、记录、表达以及测量的科学与技术。
3S技术的应用、运用遥感技术以及数字摄影测量是其主要研究方向。
在多个领域内都可以运用遥感技术与摄影测量,比如:自然灾害、勘查土木工程、监测环境以及国土资源调查等。
随着我国经济的不断发展,运用到遥感技术与摄影测量的领域也在逐渐的增多。
在人类认识宇宙方面,遥感技术与摄影测量为人类提供了新的方式与方法,也为人类对地球的认知以及和谐共处提供了新的方向。
遥感技术和摄影测量可以提供比例不同的地形图以服务于各种工作,并且还能实现基础地理信息数据库的建立;遥感技术与摄影测量与地图制图、大地测量、工程测量以及卫星定位等构成了一整套技术系统,是测绘行业的支柱。
一、摄影测量与遥感技术的发展
从摄影测量与遥感技术的发展来看,摄影测量与遥感技术在近30年的时间里已经涉及到城市建设、水利、测绘、海洋、农业、气象、林业等各个领域,在我国的经济发展中起着至关重要的作用。
摄影测量从20世纪70年代后期从模拟摄影中分离出来,并逐渐步入数字摄影阶段,摄影测量正在逐渐的转变为数字化测绘技术体系。
(一)摄影测量与遥感技术有利于推动测绘技术的进步
我国的摄影测量从上世纪70年代后期经历一个系统的转变。
在经历了模拟摄影测量以及解析摄影测量阶段之后,摄影测量终于步入了数字摄影测量的阶段,这也成为我国传统测绘体系解体,测绘技术新体系兴起的标志。
首先,从数字影像的类型来看,当前我国已经建立了数字栅格图、数字高程模型以及数字正射影像,土地利用与地名数据库也随之建立起来,摄影测量与数据库的多样性在一定程度上为生产运用提供了可能,从而进一步推动了测绘技术的发展。
其次,由于摄影测量与遥感技术的飞速发展,也逐渐被国家所重视,并利用这两项技术来完成了各种地理比例尺地形图的绘制。
此外,还推动了诸多具有全国界别的基础地理信息数据库的建立。
比如:比例尺级别为1:50000,1:1000000等的国家级地理信息数据库;除开国家级的,还有省级、县级等的地理信息数据库等。
(二)摄影测量与遥感技术有利于提升空间数据的获取能力
我国获取空间数据的能力在经过五十年的发展,有了较大的提升。
对具有自主知识产权的处理遥感数据平台进行了研发,从而推动了国产卫星遥感影像地面处理系统的建立,并在摄影测量方面积极进行研究和探索,为我国独立处理信息、获取观测体系的建立提供了坚实的基础。
首先,从获取数据的能力方面来看,传感器在国家863以及973计划的支持上成功被研制出来,成功发射了对地观测的包括通信卫星、海洋卫星、气象卫星以及资源卫星等五十多颗卫星,并推动了资源、风云、环境减灾以及海洋四大民用对地观测卫星体系的建立,实现了从太阳和地球同步轨道对地球多传感器、多平台的观测以及对地球表面分辨率不同的雷达和光学图像的获取,并将这些获取的数据用于对海洋现象、大气成分、自然灾害以及水循环等各个方面的监测。
其次,从数据储备方面来看,数据积累已经成功的覆盖了全国海域、陆地以及我国周围国家和地区的包括一千五百万平方公里的地球表面数据。
二、摄影测量与遥感技术在国民经济各项领域中的运用
(一)摄影测量与遥感技术在应对自然灾害中的运用
在发生自然灾害时,为了能够第一时间了解灾情的具体分布,获取高分辨率灾区遥感影像,可以采用低空无人遥感、航天、航空遥感等方式,对灾区原有的地理信息以及尺度进行整合,推动地理信息服务平台的建立,将多尺度影像地图制作出来,及时、有效的提供地理信息以及地图数据支持,为及时制定出应对自然灾害的措施提供了依据。
比如在汶川地震时,在灾区道路交通与通信严重受损的情况下,通过摄影测量与遥感技术在第一时间获取了灾区的详细信息与资料,并利用航空遥感技术和无人机连续、动态的实现对灾区的监测,并对道路交通以及房屋倒塌等情况进行分析,建立起灾区地理信息综合服务平台,将灾区的地理信息数据进行整合,比如水系、居民地以及交通等,为各级抗震救灾指挥部门作出正确的决策以及救援人员的搜救工作提供了及时有效的灾情信息。
在灾区的救援工作中,发挥着至关重要的作用。
(二)摄影测量与遥感技术在气象中的运用
在气象方面中,摄影测量与遥感技术主要运用在对各种气象灾害的.预报和监测两方面。
在热带天气系统的监测方面,气象卫星发挥着极其重要的作用,尤其是对于台风的预报和监测。
在我国的春、夏季中,雷雨、暴雨等作为多发性的灾害性天气,在监测和分析方面,如果运用常规的气象观测资料是非常困难的。
利用具有高空间分辨率和高时间密度特点的卫星云图以及卫星产品,可以对对流系统的演变、发生、移动以及发展过程进行全方位的监测,从而为对流天气的分析和提前预警提供了非常重要的信息。
三、结语
摄影测量与遥感技术的应用已经逐渐步入信息化阶段。
随着我国航空航天技术的不断发展,如何将各行各业的发展与摄影测量和遥感技术相结合从而推动我国经济的发展,已经成为未来摄影测量和遥感技术发展的主要方向。
【参考文献】
[1]张景雄.地理信息系统与科学[M].武汉:武汉大学出版社,2010:108―114
[2]张剑清.潘励.王树根.摄影测量学[M].武汉:武汉大学出版社,2009:89―93
[3]李德仁.王树根.周月琴.摄影测量与遥感概论[M].北京:测绘出版社,2008:131―137
[4]乔瑞亭.孙和利.李欣.摄影与空中摄影学[M].武汉:武汉大学出版社,2008:178―182
[5]窦超.李兆钧.浅谈摄影测量与遥感的发展应用[M].青海国土经略,2011(06):29―31
摄影测量与遥感技术的新特点及技术【2】
摘要:本文主要分析了近年来我国摄影测量与遥感技术表现出的许多新的特点,分别从航空摄影自动定位技术、近景摄影测量、低空摄影测量、SAR数据处理、多源空间数据挖掘等方面进行了总结与论述。
关键词:电子科技论文发表,科技论文网,自动定位技术,近景摄影测量,低空摄影测量,SAR数据处理,多源空间数据挖掘
前言:摄影测量与遥感是从摄影影像和其他非接触传感器系统获取所研究物体,主要是地球及其环境的可靠信息,并对其进行记录、量测、分析与应用表达的科学和技术。
随着摄影测量发展到数字摄影测量阶段及多传感器、多分辨率、多光谱、多时段遥感影像与空间科学、电子科学、地球科学、计算机科学以及其他边缘学科的交叉渗透、相互融合,摄影测量与遥感已逐渐发展成为一门新型的地球空间信息科学。
1、航空摄影自动定位技术
近年来,随着卫星导航和传感器技术的进步,遥感对地目标定位逐步摆脱了地面控制点的束缚,向少控制点甚至是无控制点的方向发展。
1.1 利用基于载波相位测量的GPS动态定位技术测定航空影像获取时刻投影中心的3维坐标,以此为基础研究了GPS辅助空中三角测量理论和质量控制方法,在加密区四角布设地面控制点的GPS辅助光束法区域网平差的精度可满足摄影测量规范的精度要求,大量减少了航空摄影测量所需的地面控制点。
研究成果已大规模用于国家基础测绘,产生了显著的社会和经济效益。
1.2 开展利用在飞机上装载IMU和GPS构成的POS系统直接获取航摄像片6个外方位元素的多传感器航空遥感集成平台研究,可实现定点航空摄影和无地面控制的高精度对地目标定位。
研究成果表明,在1:5万及以下比例尺的4D产品生产中,可直接使用POS系统测得的像片外方位元素进行影像定向,基本无需地面控制点和摄影测量加密,从而改变了航空摄影测量的作业模式,并使无图区、困难地区的地形测绘和空间信息数据的实时更新成为可能。
2、近景摄影测量技术
近景摄影测量的研究应用领域已涉及空间飞行器制造、航空工业、船舶工业、汽车工业、核能工业、化学工业以及医学、生物工程、公安刑事侦破、交通事故及其他事故现场处理、古建筑建档和恢复、大型工程建设监测等方面。
2.1 利用数字相机与实时数字近景摄影测量技术相结合建立相应的工业零件检测系统。
该类系统使用高重叠度序列图像作为影像数据源,利用较多同名特征的冗余观测值成功地进行粗差剔除,根据2维序列图像导出物体不同部位的3维信息,然后将这些3维信息融为统一的表面模型,实现了高精度3维重建。
2.2 利用数码相机与全站仪集成形成一个全新的测量系统——摄影全站仪系统。
尽管传统近景摄影测量近年来得巨大发展,但必须在被测物体表面或周围布设一定数量的控制点,摄影测量工作者心中的“无接触测量“没有真正实现。
全站仪作为一种高精度测量仪器在工程测量中被广泛接受,本质上它是一种基于”点“的测量仪器。
将它与基于”面“的摄影测量有机地结合起来,形成一个全新的测量系统——摄影全站仪系统。
在该系统中,量测数码相机安装在全站仪的望远镜上,测量时利用全站仪进行导线测量,在每个导线点利用量测数码相机对被测物体进行摄影。
每张影像对应的方位元素可以由导线测量与全站仪的读数中获取。
3、低空摄影测量技术
近年来随着低空飞行平台(固定翼模型飞机、飞艇、直升机、有人驾驶小型飞机)及其辅助设备的进一步完善、数码相机的快速普及和数字摄影测量技术的日趋成熟,由地面通过无线电通讯网络,实现起飞、到达指定空域、进行遥感飞行以及返回地面等操作的低空遥感平台为获取地面任意角度的清晰影像提供了重要途径。
3.1 建立基于无人驾驶飞行器的低空数字摄影测量与遥感硬件系统。
硬件平台包括无人驾驶遥控飞行平台,差分GPS接收机,姿态传感器,高性能数码相机和视频摄像机,数据通讯设备,影像监视与高速数据采集设备,高性能计算机等等。
需要深入研究无人驾驶飞行平台的飞行特性,并研制三轴旋转云台、差分GPS无线通讯、视频数据的自动下传、自动曝光等关键技术。
3.2 研究无人驾驶飞行平台的自动控制策略。
在飞行器上搭载飞控计算机,由差分GPS数据得到飞艇(相机)的精确位置,在此基础上对较低分辨率的视频序列影像进行匹配,结合姿态传感器的输出信号实时自动确定飞行器的姿态,从而进行飞行自动控制,并将所有数据同时下传到地面监控计算机。
3.3 研究多基线立体影像中连接点的多影像匹配方法与克服影像几何变形的稳健影像匹配方法。
3.4 数字表面模型与正射影像的自动获取及立体测图。
4、SAN数据处理技术
SAR成像具有全天时、全天候的工作能力,它与可见光红外相比具有独特的优势。
随着我国SAR传感器研制技术的进一步发展,先后研制了不同波段,不同极化方式,空间分辨率达到0.3 In的传感器,并在SAR立体测绘方面设计了不同轨道和相同轨道的重复观测,为我国开展SAR技术的相关研究奠定了数据基础。
4.1 根据不同应用目的的SAR图像与可见光图像的融合。
利用SAR和可见光反映地物不同特性的特点,在提取不同土壤性质以及洪水监测和灾害评估方面采用不同的融合方法,取得了一定的理论成果,并完成了国家和部门的科研课题。
4.2 SAR图像噪声去除方法。
由于SAR的成像特点,造成了SAR图像的信噪比低,噪声严重。
提出了自适应滤波思想,基于图斑的去噪方法以及噪声去除方法的评价等。
4.3 机载和星载重复轨道的SAR立体测图技术以及星载的InSAR技术和D—InSAR的突破。
完成了星载InSAR生成DEM及D—InSAR形变检测的相关软件开发,利用极化SAR数据提取地物目标,开展极化干涉测量的研究。
5、多源空间数据挖掘技术
多源空间数据挖掘技术主要研究应用数学方法和专业知识从多源对地观测数据中,提取各种面向应用目的的地学信息。
5.1 从遥感图像数据中挖掘GIS数据。
在统计模式识别的基础上,通过神经网络、模糊识别和专家系统等技术实现图像光谱特征自动分类。
5.2 基于纹理分析的分类识别。
包括基于统计法的纹理分析、基于分形法的纹理分析、基于小波变换的纹理分析、基于结构法的纹理分析、基于模型法的纹理分析和空间/频率域联合纹理分析等。
5.3 遥感图像的解译信息提取。
把计算机自动识别出来的影像,结合GIS数据库或解译员的知识,确定其对应的地学属性。
包括基于GIS数据的图像信息识别、基于地学知识辅助的图像信息识别、基于专家知识辅助的图像信息识别、基于立体观察的图像信息识别、基于矢量栅格转化的信息提取和基于多源数据融合的信息识别等。
摄影测量与遥感的现状及发展趋势【3】
摘 要:随着信息时代的来临,人类社会步入全方位信息时代,各种新兴的科学技术迅猛发展,并广泛应用于人类生活中去。
摄影测量与遥感技术被广泛应用于我国测绘工作去,本文探讨了我国摄影测量与遥感的发展现状以及展望了发展趋势。
关键词:摄影测量;遥感;现状
随着信息时代的来临,人类社会步入全方位信息时代,各种新兴的科学技术迅猛发展,并广泛应用于人类生活中去。
摄影测量经历了模拟摄影测量、解析摄影测量和数字摄影测量三个阶段。
而在这期间,从遥感数据源到遥感数据处理、遥感平台和遥感器以及遥感的理论基础探讨和实际应用,都发生了巨大的变化。
数字地球(digitalearth)的概念是基于信息高速公路的假设和地理空间信息学的高速发展而产生的,数字地球为摄影测量与遥感学科提供了难得一遇的机会和明确的发展方向,与此同时,也向摄影测量和遥感技术提出了一些列的挑战。
而摄影测量和遥感学科是为数字地球提供空间框架图像数据及从数据图像中获得相关信息惟一技术手段
一、国内外摄影测量与遥感的现状
(一)摄影测量现状
摄影测量经历了漫长的发展过程,随着计算机技术以及自动控制技术的高数发展,进入20世纪末期的时候,基于全数字自动测图软件的完成,数字摄影测量工作站获得了迅猛发展并普遍存在于测量工作中。
进入21世纪后,科学技术的提升帮助摄影测量进入了数字化时代,数字摄影测量学学科与计算机科学有了大面积的知识交叉,摄影测量工具也变为较为经济的计算机输入输出设备,这种革命性的变革,使得数字摄影测量提升到了另一个台阶,数字摄影测量的语义信息提取、影像识别与分析等方面均产生了从质到量的变化。
目前我国各省测绘局均已广泛应用了数字摄影测量,建立了数字化测绘生产基地,实现了全数字化摄影测量与全球定位系统之间的有机合成,并且应用与测量实际工作中。
(二)遥感技术现状
目前遥感技术主要应用在日常的天气、海洋、环境预报及灾害监测、土地利用、城市规划、荒漠化监测、环境保护等方面,为社会带来了巨大的经济利益。
尤其要提出的是航天遥感,是利用卫星遥感获取各种信息是目前最有效的方法。
在实现数字地球概念,卫星遥感技术具有很重要的地位。
数字地球的实际意义就是将地球转为一个虚拟的球体,以数字形式来表达地球上的不同种类的信息,实现三维式和多分辨形式的地球描述。
数字地球是一个数量庞大的工程,从长远来看,信息量的更新一集信息的收取都需要卫星遥感技术提供可靠的信息源,换句话说,卫星遥感是实现数字地球的必要手段,也是其他手段不能够替代的。
二、摄影测量与遥感的应用与主要技术
(一)摄影测量与遥感在地籍测量中的应用
应用数字摄影测量与遥感模式进行地籍测量前景非常广阔。
航空航天事业的飞速发展,为高分辨率卫星遥感影像技术为空间地理信息提供主要的数据元。
主要以激光成像雷达、双天线SAR系统等三维数字摄影测量系统。
利用卫星遥感进行土地资源调查和土地利用动态监测,为快速及时的变更地籍测量做好参照,同时还能顺利的完成地籍线画图的测绘,还可以得到正射影像地籍图、三维立体数字地籍图等附属产品。
数字摄影测量主要以大比例尺航空像片为数据采集对象,利用该技术在航片上采集地籍数据,实行空三加密。
数字摄影测量与模式得到的地籍图信息丰富,实时性强;大部分工作均在室内完成,降低劳动强度与人工成本,还能大幅度提高工作效率,是一种非常实用的地籍测量模式。
(二)摄影测量在三维模型表面重建的应用
三维物体的重建技术可广泛应用于古建筑重建和文物保护、医学重建、工业量测、人脸重建、人体重建及程勘察等方面,这种技术主要通过手持量测数码相机进行操作,得到一组具有短基线和多度重叠的图片,通过立体匹配获取可靠的模型点数据。
基于短基线多影像数字摄影测量的快速三维重建技术能够解决静静摄影测量中不能同时兼顾变形早点近景和远景的问题,在操作过程中采用量测数码相机以及手持拍摄方式,使得这种技术简单快速,并且具有高度自动化的有点。
(三)遥感自动定位技术的应用
遥感自动定位技术能够确定影响目标的实际位置,并且准确的解译影响属性,在GPS空中三角测量的基础上,利用惯性导航系统,形成航空影响传感器,实现高精度的定点摄影成像。
在卫星遥感条件下,精度甚至可以达到米级。
遥感自动定位技术的应用,有助于实现实时测图和实时数据更新的作业流程,能够大量减少野外像控测量的工作量。
三、摄影测量与遥感发展展望
目前,摄影测量与遥感技术在数据获取与处理、信息服务和数据分析方面都有了新的进展,数据获取装备发展迅猛,数据处理系统自动化程度相应的提高,航空摄影测量软件实现模块化和标准化,实现了内外一体化的航空摄影测量方法,遥感影像信息管理能力增强。
除此之外,还可以看到测绘领域的全球化进程日益加剧。
四、结语
虽然现在摄影测量与遥感技术相对发展迅速,并且已经广泛应用与测绘工作中,逐步实现数字化与智能化。
在我国目前,摄影测量与遥感装备存在产品种类单一、生产效率低等实际生产问题,这是与飞速发展的信息产业背道而驰的,达不到国际水平。
需要国家发展测绘仪器制造业和专业软件开发能力,跨学科展开合作,集中优势力量,通过政府出台政策来引导市场发展,我国想要在摄影测量与遥感上取得更大的飞跃,还有一段很长的路要走。
参考文献:
[1]李德仁等.地球空间信息学与数字地球[C].空间数据基础设施与数字地球论文集,1999.
[2]刘经南.激光扫描测高技术的发展与现状[M].武汉大学学报,2003(2):132-137.
[3]郑立中,陈秀万.中国卫星遥感与定位技术应用的现状和发展[A].中国遥感奋进创新二十年学术论丈集[C].北京:气象出版社,2001.
一、资料的收集与分析 遥感制图所需的资料范围较广,一般需要收集如下资料 1、编制地区的普通地图 、 (1)比例尺最好与成图比例尺一致或稍大于成图比例尺 (2)选用面积变形较小的地图投影 2、遥感资料 后几年的影像 在选择遥感图像时,要遵循以下几个原则: (1)空间分辨率及制图比例尺的选择 空间分辨率指像素 代表的地面范围的大小,即扫描仪的瞬时视场或地面物体能分辨的最小单元。 空间分辨率指像素所代表的地面范围的大小,即扫描仪的瞬时视场或地面物体能分辨的最小单元的地面范围的大小 由于遥感制图是利用遥感图像来提取专题制图信息的,因此在选择遥感图像空间分辨率时要考虑以 下两点要素:一是判读目标的最小尺寸,二是地图成图比例尺。遥感图像的空间分辨率与地图比例尺有 密切关系:空间分辨率越高图像可放大的倍数越大,地图的成图比例尺也越大。 遥感图像的比例尺应与成图比例尺一致或象片比例尺稍大于成图比例尺,这样可以避免成图比例尺 大尺度变换的繁琐技术问题。但对于专题要素的判读、分类、描绘来说,往往要选择大于地图比例尺的 象片为宜。 (2)波谱分辨率与波段的选择 波谱分辨率是指传感器在接受目标辐射的波谱时能分辨的最小波长间隔。间隔越小,分辨率越高。 波谱分辨率是指传感器在接受目标辐射的波谱时能分辨的最小波长间隔。间隔越小,分辨率越高。 是指传感器在接受目标辐射的波谱时能分辨的最小波长间隔 波谱分辨率,是由传感器所使用的波段数目,也就是选择的通道数,以及波段的波长和宽度所决定。各 遥感器波普分辨率在设计时, 都是有针对性的, 多波段的传感器提供了空间环境不同的信息。 TM 为例: 以 TM1 蓝波段:对叶绿素和夜色素浓度敏感,用于区分土壤与植被、落叶林与针叶林、近海水域制图。 TM2 绿波段:对无病害植物叶绿素反射敏感 TM3 红波段:对叶绿素吸收敏感,用于区分植物种类。 TM4 近红外波段:对无病害植物近红外反射敏感,用于生物量测定及水域判别。 TM5 中红外波段:对植物含水量和云的不同反射敏感,可判断含水量和雪、云。 TM6 远红外波段:作温度图,植物热强度测量 TM 图象的性质 波段 1 2 3 4 5 6 7 光谱范围 (微米) 0.45—0.52 0.52—0.60 0.63—0.69 0.76—0.90 1.55—1.75 10.4—12.5 2.08—2.35 光谱性质 蓝 绿 红 近红外 中(近)红外 热(中)红外 中红外 地面分辨 率(米) 30 30 30 30 30 120 30 主 要 应 用 地壤与植被分类 健康植物的绿色反射率 探测不同植物的叶绿素吸收 生物量测量,水体制图 植物湿度测量,区分云与雪 植物热强度测量,其它热制图 水热法制图,地质采矿 包括航空象片、卫星象片及它们的底片和磁带、航空象片镶辑图、若为动态监测还需要前 (3)时间分辨率与时相的选择 遥感图像是某一瞬间地面实况的记录,而地理现象是变化、发展的。因此,在一系列按时间序列成像的 遥感图像 多时相遥感图像中,必然存在着最能揭示地理现象本质的“最佳时相”图像 把传感器对同一目标进行重复探测时, 相邻两次探测的时间间隔称为遥感图像的时间分辨率。 Landsat 如 1、2、3 的图像最高时间分辨率为 18 天,Landsat4、5、7 为 16 天,SPOT-4 为 26 天,而静止气象卫星的 时间分辨率仅为半小时。 遥感图像的时间分辨率对动态监测尤为重要。如:天气预报、灾害监测等需要短周期的时间分辨率,因 此常以“小时”为单位。植物、作物的长势监测、估产等需要用“旬”或“日”为单位。 显然只有气象卫星的图像信息才能满足这种要求;研究植被的季相节律、农作物的长势,目前以选择 landsat-TM 或 SPOT 遥感信息为宜。 3、其他资料 土地现状图、土地利用报告 、编图地区的统计资料、政府文件、地方志等 二、确立专题要素的分类系统 三、遥感图像处理 1、遥感图像处理方法的选择 、 (1)光学处理法 常用的方法有:假彩色合成(加色法、减色法)、等密度分割、图像相关掩膜。 (2)数字图像校正 方法:辐射校正、几何校正 (3)数字图像增强的方法: A. 对比度变换 B.空间滤波:是指在图像空间或空间频率对输入图像应用若干滤波函数而获得改进的输出图像的技术。 空间滤波 常用的空间滤波的方法有:平滑和锐化。 :平滑和锐化 平滑:图像中出现某些亮度变化过大的区域,或出现不该有的亮点(“噪声”)时,采用平滑的方法可以减小变化, 平滑 使亮度平缓或去掉不必要的“噪声”点。具体方法有:均值平滑、中值滤波 均值平滑、 均值平滑 锐化:为了突出图像的边缘、线状目标或某些亮度变化率大的部分,可采用锐化方法。常用的几种方法:罗伯特 锐化 梯度、索伯尔梯度、拉普拉斯算法、定向检测 C.彩色变换 彩色变换就是将黑白图像转换成彩色图像的方法。主用的方法有单波段彩色变换、多波段彩色变换、 彩色变换: 彩色变换 HLS 变换等。 D.图像运算 E.多光谱变换 多光谱变换: 多光谱变换 两幅或多幅单波段影像,完成空间配准后,通过一系列运算,可以实现图像增强,达到提取某些信息 或去掉某些不必要信息的目的。方法:差值运算、比值运算 多光谱变换就是指用某种变换把信息集中于较少(一般为 3 个)波段内。常用的方法有:主成分分 主成分分 变换) 缨帽变换( 、缨帽变换 变换) 、沃尔什—哈达玛变换、傅立叶变换、植被指数变换、斜变 析(K-L 变换) 缨帽变换(K-T 变换) 、 换、余弦变换等等。 主成分分析( 变换) 主成分分析(K-L 变换)的主要特性有二: a.能够把原来多个波段中的有用信息尽量集中到数目尽可能少的新的组分图像中。 b.还能够使新的组分图像中的组分之间互不相关,也就是说各个组分包含的信息内容是不重叠的。 K-L 变换的缺点 的缺点是不能排除无用以至有碍的噪声和干扰因素。 的缺点 缨帽变换( 变换) :它是 Kauth 和 Thomas(1976 年)通过分析 MSS 图像反映农作物或植被生长过程的数据结 缨帽变换(K-T 变换) 构后,提出的正交线性变换。 K-T 变换的特点:a.能够把原来多个波段中的有用信息压缩到较少的新的波段内。 b.要求新波段正交或近似正交。 c.分离或削弱无用的干扰因素。 (4)多源信息复合 ) 四、遥感图像的判读 1、遥感图像目视判读 遥感图像的判读标志: 遥感图像的判读标志:是指图像上反映出的地物和现象的图像特征,是以深浅不同的黑白色调(灰阶) 或不同的色彩构成的各种各样图形现象出来的。 遥感图像的判读标志可概括为:颜色、形状、空间位置 :颜色、形状、 颜色——色调、 颜色、 颜色——色调、 颜色、阴影 ——色调 形状——形状、纹理、 大小 、 形状 、 位置——位置、图型、相关布局 位置 2、目视解译的方法 (1)直接判读法(2)对比分析法 (3)信息复合法(4)综合推理法(5)地理相关分析法 (1)直接判读法:是根据遥感影像目视判读直接标志,直接确定目标地物属性与范围的一种方法。 直接判读法 例如,在可见光黑白像片上,水体对光线的吸收率强,反射率低,水体呈现灰黑到黑色,根据色调可以从影像 上直接判读出水体,根据水体的形状则可以直接分辨出水体是河流,或者是湖泊。在 MSS4、5、7 三波段假彩色影 像上,植被颜色为红色,根据地物颜色色调,可以直接区别植物与背景。 (2)对比分析法 此方法包括同类地物对比分析法、空间对比分析法和时相动态对比法。 A.同类地物对比分析法 同类地物对比分析法是在同一景遥感影像上,由已知地物推出未知目标地物的方法。 同类地物对比分析法 B.空间对比分析法 空间对比分析法是根据待判读区域的特点,选择另一个熟悉的与遥感图像区域特征类似的影像,将两个影像相互 空间对比分析法 对比分析,由已知影像为依据判读未知影像的一种方法。 C.时相动态对比法,是利用同一地区不同时间成像的遥感影像加以对比分析,了解同一目标地物动态变化的一种解 .时相动态对比法 译方法。 (3)信息复合法:利用透明专题图或者透明地形图与遥感图像重合,根据专题图或者地形图提供的多种辅助信息, 信息复合法 识别遥感图像上目标地物的方法。 (4)综合推理法:综合考虑遥感图像多种解译特征,结合生活常识,分析、推断某种目标地物的方法。 综合推理法 (5)地理相关分析法:根据地理环境中各种地理要素之间的相互依存,相互制约的关系,借助专业知识,分析推断 地理相关分析法 某种地理要素性质、类型、状况与分布的方法。 3、目视解译的基本步骤 (1)准备工作 •选择合适波段与恰当时相的遥感影像 •相关专题地图的准备 •工具材料准备 •熟悉地理概况 •确定专题分类系统 (2)室内初步解译与判读区的野外考察 室内建立初步判读标志 •初步解译的主要任务是掌握解译区域特点,确立典型解译样区,建立目视解译标志,探索解译方法,为全面解译 奠定基础。 •在室内初步解译的工作重点是建立影像解译标准,为了保证解译标志的正确性和可靠性,必须进行解译区的野外 调查。野外调查之前,需要制定野外调查方案与调查路线。 野外考察验正判读标志 在野外调查中,为了建立研究区的判读标志,必须做大量认真细致的工作,填写各种地物的判读标志登记表, 以作为建立地区性的判读标志的依据。在此基础上,制订出影像判读的专题分类系统,根据目标地物与影像特征之 间的关系,通过影像反复判读和野外对比检验,建立遥感影像判读标志。 (3)室内详细判读 在详细判读过程中,要及时将解译中出现的疑难点、边界不清楚的地方和有待验证的问题详细记录下来,留待野 外验证与补判阶段解决。 (4)野外验证与补判 野外验证指再次到遥感影像判读区去实地核实解译的结果。主要内容包括两方面: •检验专题解译中图斑的内容是否正确。 •验证图斑界线是否定位准确,并根据野外实际考察情况修正目标地物的分布界线。 (5)目视解译成果的转绘与制图 遥感图像目视判读成果,一般以专题图或遥感影像图的形式表现出来。 五、遥感图像计算机解译 图像分类方法 监督分类 1.(1) 最小距离法 最小距离法(minimum distance classifier) •以特征空间中的距离作为像素分类的依据。 •在遥感图象上对每一类别选取一个具有代表意义的统计特征量;计算待分像元与已知类别之间的距离,将其归 属于距离最小的一类。 •最小距离分类法原理简单,分类精度不很高,但计算速度快,它可以在快速浏览分类概况中使用。 (2) 分级切割分类法 分级切割分类法(multi-level slice classifier) 多级切割法(multi-level slice classifier)是根据设定在各轴上的值域分割多维特征空间的分类方法。 (3) 特征曲线窗口法 •特征曲线窗口法分类的依据是:相同的地物在相同的地域环境及成像条件下,其特征曲线是相同或相近的,而不 同地物的特征曲线差别明显。 •特征曲线窗口法分类的效果取决于特征参数的选择和窗口大小。各特征参数窗口大小的选择可以不同,它要根据 地物在各特征参数空间里的分布情况而定。 (4) 最大似然法 最大似然法(maximum likelihood classifier) •地物图象可以以其光谱特征向量 X 作为亮度在光谱特征空间中找到一个相应的特征点,来自于同类地物的各种特 征点在特征空间中将形成一种属于某种概率分布的集群。 • 判别某一特征点类属的合理途径是对其落进不同类别集群中的条件概率进行比较, 相应于条件概率大的那个类别, 应是该特征点的归属。 2、监督分类步骤 (1)选择有代表性的训练场,确定各类地物的范围界线。 (2)对各类地物光谱值统计,提取各地物的数值特征。 (3)确定分类判别函数:最小距离法、马氏距离法等。 (4)分类参数、阈值的确定;各类地物像元数值的分布都围绕一个中心特征值,散布在空间的一定范围,因此需要 给出各类地物类型阈值,限定分布范围,构成分类器。 (5)分类:利用分类器分类。 (6)检验:对初步分类结果精度进行检验(分类精度、面积精度、位置精度等) 对分类器进行调整。 (7)待分类影象分类。 (8)分类结果的矢量化。 非监督分类 前提:遥感影象上同类物体在同样条件下具有相同的光谱信息特征,依靠影象上不同类地物光谱信息(或纹理信息) 进行特征提取,再统计特征的差别来达到分类的目的,最后对已分出的个别类进行确认。 非监督分类方法是在没有先验类别(训练区)作为样本的条件下,即事先不知道类别特征,主要根据像元间相似度 非监督分类方法 的大小进行归类合并(将相似度大的像元归为一类)的方法。主要有: (1)分级集群法(2)动态聚类法 第二节 从影像生成专题地图一、目视解释的专题地图(1)影像预处理 包括遥感数据的图像校正、图像增强,有时还需要实验室提供监督或非监督分类的图像。(2)目视解译 经过建立影像判读标志,野外判读,室内解译,得到绘有图斑的专题解译原图。(3)地图概括 按比例尺及分类的要求,进行专题解译原图的概括。专题地图需要正规的地理底图,所以地图概括的同时也进行图斑向地理底图的转绘。(4)地图整饰 在转绘完专题图斑的地理底图上进行专题地图的整饰工作。二、数字图像处理的专题制图(1)影像预处理 同目视解译类似,影响经过图像校正、图像增强,得到供计算机分类用的遥感影像数据。(2)按专题要求进行影像分类。(3)专题类别的地图概括 包括在预处理中消除影像的孤立点,依成图比例尺对图斑尺寸的限制进行栅格影像的概括。(4)图斑的栅格/矢量变换。(5)与地理底图叠加,生成专题地图。三、遥感系列制图系列地图,简单说就是在内容上和时间上有关联的一组地图。我们所讨论的系列地图,是指根据共同的制图目的,利用同一的制图信息源,按照统一的设计原则,成套编制的遥感专题地图。地理底图的编制程序:采用常规的方法编制地理底图时,首先选择制图范围内相应比例尺的地形图,进行展点、镶嵌、照像,制成地图薄膜片,然后将膜片蒙在影像图上,用以更新地形图的地理要素。经过地图概括,最后制成供转绘专题影像图的地理底图,其比例尺与专题影响图相同。遥感系列制图的基本要求1.统一信息源2.统一对制图区域地理特征的认识3.制定统一的设计原则4.按一定的规则顺序成图