图像处理人脸检测论文

6个回答默认排序

默认排序

按时间排序

千羽YUmi

已采纳

无线测温，GSM防盗报警

325 评论 2小时前发布

二x小b姐

随着图像处理技术的迅速发展，图像识别技术的应用领域越来越广泛。我整理了图像识别技术论文，欢迎阅读!

图像识别技术研究综述

摘要：随着图像处理技术的迅速发展，图像识别技术的应用领域越来越广泛。图像识别是利用计算机对图像进行处理、分析和理解，由于图像在成像时受到外部环境的影响，使得图像具有特殊性，复杂性。基于图像处理技术进一步探讨图像识别技术及其应用前景。

关键词：图像处理;图像识别;成像

中图分类号：TP391 文献标识码：A 文章编号：1009-3044(2013)10-2446-02

图像是客观景物在人脑中形成的影像，是人类最重要的信息源，它是通过各种观测系统从客观世界中获得，具有直观性和易理解性。随着计算机技术、多媒体技术、人工智能技术的迅速发展，图像处理技术的应用也越来越广泛，并在科学研究、教育管理、医疗卫生、军事等领域已取得的一定的成绩。图像处理正显著地改变着人们的生活方式和生产手段，比如人们可以借助于图像处理技术欣赏月球的景色、交通管理中的车牌照识别系统、机器人领域中的计算机视觉等，在这些应用中，都离不开图像处理和识别技术。图像处理是指用计算机对图像进行处理，着重强调图像与图像之间进行的交换，主要目标是对图像进行加工以改善图像的视觉效果并为后期的图像识别大基础[1]。图像识别是利用计算机对图像进行处理、分析和理解，以识别各种不同模式的目标和对像的技术。但是由于获取的图像本事具有复杂性和特殊性，使得图像处理和识别技术成为研究热点。

1 图像处理技术

图像处理(image processing)利用计算机对图像进行分析，以达到所需的结果。图像处理可分为模拟图像处理和数字图像图像处理，而图像处理一般指数字图像处理。这种处理大多数是依赖于软件实现的。其目的是去除干扰、噪声，将原始图像编程适于计算机进行特征提取的形式，主要包括图像采样、图像增强、图像复原、图像编码与压缩和图像分割。

1)图像采集，图像采集是数字图像数据提取的主要方式。数字图像主要借助于数字摄像机、扫描仪、数码相机等设备经过采样数字化得到的图像，也包括一些动态图像，并可以将其转为数字图像，和文字、图形、声音一起存储在计算机内，显示在计算机的屏幕上。图像的提取是将一个图像变换为适合计算机处理的形式的第一步。

2)图像增强，图像在成像、采集、传输、复制等过程中图像的质量或多或少会造成一定的退化，数字化后的图像视觉效果不是十分满意。为了突出图像中感兴趣的部分，使图像的主体结构更加明确，必须对图像进行改善，即图像增强。通过图像增强，以减少图像中的图像的噪声，改变原来图像的亮度、色彩分布、对比度等参数。图像增强提高了图像的清晰度、图像的质量，使图像中的物体的轮廓更加清晰，细节更加明显。图像增强不考虑图像降质的原因，增强后的图像更加赏欣悦目，为后期的图像分析和图像理解奠定基础。

3)图像复原，图像复原也称图像恢复，由于在获取图像时环境噪声的影响、运动造成的图像模糊、光线的强弱等原因使得图像模糊，为了提取比较清晰的图像需要对图像进行恢复，图像恢复主要采用滤波方法，从降质的图像恢复原始图。图像复原的另一种特殊技术是图像重建，该技术是从物体横剖面的一组投影数据建立图像。

4)图像编码与压缩，数字图像的显著特点是数据量庞大，需要占用相当大的存储空间。但基于计算机的网络带宽和的大容量存储器无法进行数据图像的处理、存储、传输。为了能快速方便地在网络环境下传输图像或视频，那么必须对图像进行编码和压缩。目前，图像压缩编码已形成国际标准，如比较著名的静态图像压缩标准JPEG，该标准主要针对图像的分辨率、彩色图像和灰度图像，适用于网络传输的数码相片、彩色照片等方面。由于视频可以被看作是一幅幅不同的但有紧密相关的静态图像的时间序列，因此动态视频的单帧图像压缩可以应用静态图像的压缩标准。图像编码压缩技术可以减少图像的冗余数据量和存储器容量、提高图像传输速度、缩短处理时间。

5)图像分割技术，图像分割是把图像分成一些互不重叠而又具有各自特征的子区域，每一区域是像素的一个连续集，这里的特性可以是图像的颜色、形状、灰度和纹理等。图像分割根据目标与背景的先验知识将图像表示为物理上有意义的连通区域的集合。即对图像中的目标、背景进行标记、定位，然后把目标从背景中分离出来。目前，图像分割的方法主要有基于区域特征的分割方法、基于相关匹配的分割方法和基于边界特征的分割方法[2]。由于采集图像时会受到各种条件的影响会是图像变的模糊、噪声干扰，使得图像分割是会遇到困难。在实际的图像中需根据景物条件的不同选择适合的图像分割方法。图像分割为进一步的图像识别、分析和理解奠定了基础。

2 图像识别技术

图像识别是通过存储的信息(记忆中存储的信息)与当前的信息(当时进入感官的信息)进行比较实现对图像的识别[3]。前提是图像描述，描述是用数字或者符号表示图像或景物中各个目标的相关特征，甚至目标之间的关系，最终得到的是目标特征以及它们之间的关系的抽象表达。图像识别技术对图像中个性特征进行提取时，可以采用模板匹配模型。在某些具体的应用中，图像识别除了要给出被识别对象是什么物体外，还需要给出物体所处的位置和姿态以引导计算初工作。目前，图像识别技术已广泛应用于多个领域，如生物医学、卫星遥感、机器人视觉、货物检测、目标跟踪、自主车导航、公安、银行、交通、军事、电子商务和多媒体网络通信等。主要识别技术有：

指纹识别

指纹识别是生物识别技术中一种最实用、最可靠和价格便宜的识别手段，主要应用于身份验证。指纹识别是生物特征的一个部分，它具有不变性：一个人的指纹是终身不变的;唯一性：几乎没有两个完全相同的指纹[3]。一个指纹识别系统主要由指纹取像、预处理与特征提取、比对、数据库管理组成。目前，指纹识别技术与我们的现实生活紧密相关，如信用卡、医疗卡、考勤卡、储蓄卡、驾驶证、准考证等。

人脸识别目前大多数人脸识别系统使用可见光或红外图像进行人脸识别，可见光图像识别性能很容易受到光照变化的影响。在户外光照条件不均匀的情况下，其正确识别率会大大降低。而红外图像进行人脸识别时可以克服昏暗光照条件变化影响，但由于红外线不能穿透玻璃，如果待识别的对象戴有眼镜，那么在图像识别时，眼部信息全部丢失，将严重影响人脸识别的性能[4]。

文字识别

文字识别是将模式识别、文字处理、人工智能集与一体的新技术，可以自动地把文字和其他信息分离出来，通过智能识别后输入计算机，用于代替人工的输入。文字识别技术可以将纸质的文档转换为电子文档，如银行票据、文稿、各类公式和符号等自动录入，可以提供文字的处理效率，有助于查询、修改、保存和传播。文字识别方法主要有结构统计模式识别、结构模式识别和人工神经网络[5]。由于文字的数量庞大、结构复杂、字体字形变化多样，使得文字识别技术的研究遇到一定的阻碍。

3 结束语

人类在识别现实世界中的各种事物或复杂的环境是一件轻而易举的事，但对于计算机来讲进行复杂的图像识别是非常困难的[6]。在环境较为简单的情况下，图像识别技术取得了一定的成功，但在复杂的环境下，仍面临着许多问题：如在图像识别过程中的图像分割算法之间的性能优越性比较没有特定的标准，以及算法本身存在一定的局限性，这使得图像识别的最终结果不十分精确等。

参考文献：

[1] 胡爱明，周孝宽.车牌图像的快速匹配识别方法[J].计算机工程与应用，2003，39(7)：90—91.

[2] 胡学龙.数字图像处理[M].北京：电子工业出版社，2011.

[3] 范立南，韩晓微，张广渊.图像处理与模式识别[M].北京：科学出版社，2007.

[4] 晓慧，刘志镜.基于脸部和步态特征融合的身份识别[J].计算机应用，2009，1(29)：8.

[5] 陈良育，曾振柄，张问银.基于图形理解的汉子构型自动分析系统[J].计算机应用，2005，25(7)：1629-1631.

[6] Sanderson C，Paliwal K Fusion and Person Verification Using Speech & Face Information[C].IDIAP-RR 02-33，Martigny，Swizerland，2002.

点击下页还有更多>>>图像识别技术论文

233 评论 10小时前发布

爱紫色的射手

主要应用领域图像识别技术可能是以图像的主要特征为基础的，每个图像都有它的特征。在人类图像识别系统中，对复杂图像的识别往往要通过不同层次的信息加工才能实现。图像识别技术是立体视觉、运动分析、数据融合等实用技术的基础，在导航、地图与地形配准、自然资源分析、天气预报、环境监测、生理病变研究等许多领域可广泛应用。遥感图像识别航空遥感和卫星遥感图像通常用图像识别技术进行加工以便提取有用的信息。该技术目前主要用于地形地质探查，森林、水利、海洋、农业等资源调查，灾害预测，环境污染监测，气象卫星云图处理以及地面军事目标识别等。军事刑侦图像识别技术在军事、公安刑侦方面的应用很广泛，例如军事目标的侦察、制导和警戒系统；自动灭火器的控制及反伪装；公安部门的现场照片、指纹、手迹、印章、人像等的处理和辨识；历史文字和图片档案的修复和管理等等。生物医学图像识别在现代医学中的应用非常广泛，它具有直观、无创伤、安全方便等特点。在临床诊断和病理研究中广泛借助图像识别技术，例如CT(ComputedTomography)技术等。机器视觉作为智能机器人的重要感觉器官，机器视觉主要进行3D图像的理解和识别，该技术也是目前研究的热门课题之一。机器视觉的应用领域也十分广泛，例如用于军事侦察、危险环境的自主机器人，邮政、医院和家庭服务的智能机器人。此外机器视觉还可用于工业生产中的工件识别和定位，太空机器人的自动操作等。总结：人工智能前景不可限量，图像识别作为AI技术的支撑，是一种强有力的识别方式，随着AI在场景上的深入，图像识别应用领域会越来越广。

331 评论 11小时前发布

小丫夏夏

这个太多了，比如循迹小车，航模，密码锁之类的。

315 评论 12小时前发布

养啥啥不活

Viola-jones人脸检测算法是一种基于滑动窗口的目标检测算法，但它却克服了滑动窗口检测带来的低效问题，可以用于实时人脸检测，主要归功于以下三点：

我参考论文[1]实现了Viola Jones中提到的attention cascade检测框架，此处是 github传送门。

下面进一步详细介绍整个检测原理。

基于滑窗的目标检测基本原理很简单，首先构建一个classifier（分类器），以人脸检测为例，分类器的工作是判断给定大小的图像的是否为人脸，用该分类器从左至右从上到下扫描整幅图像，扫描获取的部分图像称为子窗（文章中子窗大小为24x24像素），当分类器判断子窗是人脸时，即完成了人脸检测。

这样处理有个问题，如果图像中包含的人脸变大了，此时采用固定大小的子窗就无法进行检测。通常有两种解决方法，1. 采用image-pyramid（图像金字塔），也就是通过resize获得多种不同大小图像并堆叠在一起，用固定大小分类器同时对所有图像进行扫描；2. 采用不同大小的分类器进行扫描。文章中用到的是第二种方法，尽管如此，虽然避免了调整图像大小带来的计算开销，但不同大小的分类器意味着有更多子窗需要进行处理。

如何构建一个足够快的分类器来对每个子窗进行快速判断。

分类器的构建有两种方式，一种是pixel-based（基于像素），另一种是feature-based（基于特征）。当把神经网络作为图像分类器时，输入是图像的像素值，即基于像素的分类器。用图像像素作为输入不包含任何和待分类目标有关的特定信息，往往训练这种分类器需要大量数据，并且分类过程较慢。基于特征的分类器就是先针对图像进行特征提取（HOG特征，SIFT特征等），再利用获取的特征进行分类。这种分类器不需要大量训练数据，且计算量一般会在特征计算部分，相对较小。

文章采用的是基于特征的分类器，选取了一种较为简单的特征即haar-like特征。利用矩形个数对可以将haar-like特征分为三类，分别由两个，三个，和四个大小相同的矩形组成。全部列举出来可以分为以下(a)(b)(c)(d)(e)五类（注意是五类不是五个，具体有多少个haar-like特征是由子窗大小决定的）。如下图所示（文章[1]中的图）。

当子窗大小给定后，我们可以用五个参数唯一确定一个 haar-like特征，即特征种类（a/b/c/d/e），左上角x轴坐标，左上角y轴坐标，矩形的长，矩形的宽。对应的特征值等于位于白色矩形框中像素值总和减去位于黑色矩形框中的像素值总和。文章中用到的子窗大小为24x24像素，可以计算出来总共有162336个特征（把在子窗中所有可能位置和可能大小的特征全部列举出来）。利用haar-like特征进行分类只需两步：

haar-like特征有两个优点，第一是它是scale-invariant(不随图片大小而改变)的，第二是可以通过积分图像快速计算。简单的说下第一点的含义，例如我们用24x24像素的训练样本训练获取一组haar-like特征和对应的门限值，当对图像进行扫描时，子窗大小调整为SxS像素，此时只需将特征中的矩形大小按同样比例进行缩放（门限值同样需要缩放），计算所得的特征值依然是有效的。积分图像是受卷积的微分性质启发而定义一种数据结构。积分图像定义：其中为积分图像，为原图像。积分图像中位置处的像素值等于原图中位于的左侧和上方的所有像素值之和。有了积分图像我们就可以快速计算haar-like特征，以特征（a）为例，如下图所示。

S1到S6是积分图像在这六个顶点上的值。该特征值等于位于A中的像素总和减去位于B中的像素总和，而A中像素总和等于S5+S1-S2-S4，B中像素总和等于S6+S2-S3-S5，并且无论矩形多大，我们总能在固定时间内计算出特征值（6次索引操作和少量的加法乘法计算）。积分图像只需计算一次后续可以一直使用，事实上在算法实现时，我们只需保存样本的积分图像，原图像反而不用保存。

现在找到了一类特征用于构建分类器，和快速计算该类特征的方法。分类器是由一组特征构成的，而不是一个，如何找到一组有效的特征。

文章列举了前人的一些特征选取方法（此处就不列举了），它们虽然取得了一定的效果，但最终选出来的特征数量还是太多。文章将adaBoost算法用于特征选取（创新点），即每次训练的弱分类器的过程看做特征选取的过程，一次从162336个特征中选取一个特征（同时还包括了对应的门限值，极性，加权误差）。

adaboost算法就不详细介绍了，它的基本思想是训练一系列“弱”分类器，组成一个committee（即每个弱分类器都有投票权，但是权重不同，加权误差越小的弱分类器权重越大）。adaboost采用迭代训练方式，给定一个t阶committee，如何寻找第t+1个弱分类器和对应的权重，以最小化在一定分布下的训练样本的加权指数损失。这个优化过程可以转换为对训练样本的分布进行调整（即增大上一轮错误判断的样本的权重，减小正确判断的样本权重），在调整后的样本分布下寻找最小化加权0-1损失的弱分类器并计算对应的加权0-1损失。

可以利用adaboost找到一组特征构成分类器，使得该分类器有极高的准确率和召回率（这种分类器势必会有较大的计算量），这样会导致图像中的每一个子窗都享有同等的计算量，扫描一整幅图会有几十万甚至上百万子窗，总体计算量依然很大。实际上一幅图像中只有极少可能包含人脸的位置是我们感兴趣的，其他不包含人脸的子窗我们希望能够快速筛除，将更精细的计算用于包含人脸的子窗。

文章引入了attention-cascade的机制（注意力级联），即训练多个分类器进行级联，替代单一的分类器。结构如下图所示（文章[3]中的图）。

上图所示的分类器有三级，上一级的输出是下一级的输入，只有预测为正的样本才能传递给下一级，预测为负的样本直接舍弃。大部分非人脸子窗往往在前几级分类器就被舍弃，这样使得扫描每个子窗所需的平均计算量大大减小。

分类器是一级一级训练之后级联起来的，训练分类器时，整个级联分类器的假负率（fpr_overall）有一个训练目标（文章[1]中设置为10e-7），同时每一级有一对训练目标，即假正率和假负率。每级分类器训练的思想是在假负率极低的情况下（文章[1]中设置为）尽量得到一个较低的假正率（文章中[1]中设置为），即我们保证在正样本尽可能多的通过该级分类器的情况下尽量筛除更多的负样本。文章[3]通过一个松弛量来调节假正率和假负率。

下一级用到的训练数据是由所有的正样本和上一级输出的假正样本组成的，这样训练的好处是可以让处于级联后半部分的分类器“看到”更多负样本数据，缺点是训练后期假正样本很难获取，训练时间会比较长。

尽管我们获取了一个级联分类器，但依然不能保证对同一幅图中的一张人脸只会检测到一次（子窗相对人脸有所便宜或者缩放子窗大小都可能导致重复检测），如何消除重复检测，获得更好的检测效果。

文章[3]中说的较为简略，主要是针对检测框构建并查集，并对并查集中的候选框求平均得出最终的检测框。

文章[1]中是采用连通分量算法，计算每种大小检测框的置信度，根据置信度选取最终结果，但前提是检测器在图像中扫描的步进必须是1个像素，处理时间可能会比较长。

只能用于正脸检测，如果人脸朝屏幕内外或者在屏幕平面上旋转均有可能失效在背景较亮，人脸较暗的情况下可能失效。在有遮挡的情况下大概率失效。

351 评论 12小时前发布

秋风泡泡

现实中有的产品都可以做

224 评论 12小时前发布

图像处理人脸检测论文

6个回答 默认排序 默认排序 按时间排序

相关问答

期刊论文

向你推荐

热门问题

6个回答默认排序

默认排序

按时间排序