大能苗*
耳廓把外界的声波收集起来,经外耳道传人鼓膜,引起鼓膜振动,鼓膜再将这种振动传给与它相连的听小骨,听小骨再将振动传给耳蜗和半规管,经处理后传至有关神经末梢,神经末梢再将声波信号传送到大脑产生听觉。人能够判断声源的方向,是利用双耳效应。声源到两只耳朵的距离一般不同,声音传到两只耳朵的时刻、强弱及其他特征也就不同,这些差异是判断声源方向的重要基础,这就是双耳效应。我们能听到声音,是因为声音传到我们的耳朵能引起鼓膜的振动人耳听到声音的过程是:物体振动产生声波,声波传递到我们的耳朵引起鼓膜的振动,由听觉神经传给大脑 不同的发声体发出声音音色不同人对声音的感知,是通过声波振动耳鼓膜,通过复杂的系统,再传感给听觉神经,于是就听到了声音。人耳对不同强度、不同频率声音的听觉范围称为声域。在人耳的声域范围内,声音听觉心理的主观感受主要有响度、音高、音色等特征.不同的声音的强度和频率组成各不相同,即是有不同的音色,所以就能够辨别不同的声音。现在对人的听觉的复杂机理并没有研究透彻,更多是从生理方面的研究。人们听声音时,可以分辨出声音是由哪个方向传来的,从而大致确定声源的位置。人们之所以能分辨声音的方向,是由于人们有两只耳朵的缘故。例如,在人们的右前方有一个声源,那么,由于右耳离声源较近,声音就首先传到右耳,然后才传到左耳,并且右耳听到的声音比左耳听到的声音稍强些。如果声源发出的声音频率很高,传向左耳的声音有一部分会被人头反射回去,因而左耳就不容易听到这个声音。两只耳朵对声音的感觉的这种微小差别,传到大脑神经中,就使人们能够判断声音是来自右前方。这就是通常所说的“双耳效应”。发声只需要发声体的振动,而听到声音首先要满足发声体振动,而且必须是每秒振动20次~20000次,其次一定要有传播声音的介质,再次是有正常良好的接收声音的器官(人耳),这三个条件缺一不可。2.人听到声音的物理过程是什么?人耳听到声音有几条路线呢?人耳听到声音的物理过程:发声体振动→声音在介质中以声波形式传播→人耳接收到声波引起听觉。事实上人听到声音是由两条路线传入内耳的,即空气传导和骨传导。(1)空气传导:声波由耳廓收集,经外耳道传到鼓膜,鼓膜振动,带动听小骨及其他组织传给听觉神经,听觉神经把信号传给大脑,人听到了声音。平时我们听到其他声源的声音,主要是空气传导。(2)骨传导:用手堵住耳朵(切断空气传导),把振动的音叉尾部先后抵在前额或牙齿上,都分别听到了声音,这时的声音主要是通过头盖骨或牙齿的振动,直接传入内耳的。就是说,人听到自己的声音是骨传播的
bluesky588
语音识别技术研究让人更加方便地享受到更多的社会信息资源和现代化服务,对任何事都能够通过语音交互的方式。 我整理了浅谈语音识别技术论文,欢迎阅读!
语音识别技术概述
作者:刘钰 马艳丽 董蓓蓓
摘要:本文简要介绍了语音识别技术理论基础及分类方式,所采用的关键技术以及所面临的困难与挑战,最后讨论了语音识别技术的 发展 前景和应用。
关键词:语音识别;特征提取;模式匹配;模型训练
Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to developing prospect ion and application of the speech-identification technology are discussed in the last part.
Keywords:Speech identification;Character Pick-up;Mode matching;Model training
一、语音识别技术的理论基础
语音识别技术:是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到生 理学 、心理学、语言学、 计算 机 科学 以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行 自然 语言通信。
不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似,一个典型语音识别系统主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外,还涉及到语音识别单元的选取。
(一) 语音识别单元的选取
选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、音节和音素三种,具体选择哪一种,由具体的研究任务决定。
单词(句)单元广泛应用于中小词汇语音识别系统,但不适合大词汇系统,原因在于模型库太庞大,训练模型任务繁重,模型匹配算法复杂,难以满足实时性要求。
音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,而 英语 是多音节,并且汉语虽然有大约1300个音节,但若不考虑声调,约有408个无调音节,数量相对较少。因此,对于中、大词汇量汉语语音识别系统来说,以音节为识别单元基本是可行的。
音素单元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28个)构成,且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母,这样虽然增加了模型数目,但提高了易混淆音节的区分能力。由于协同发音的影响,音素单元不稳定,所以如何获得稳定的音素单元,还有待研究。
(二) 特征参数提取技术
语音信号中含有丰富的信息,但如何从中提取出对语音识别有用的信息呢?特征提取就是完成这项工作,它对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。对于非特定人语音识别来讲,希望特征参数尽可能多的反映语义信息,尽量减少说话人的个人信息(对特定人语音识别来讲,则相反)。从信息论角度讲,这是信息压缩的过程。
线性预测(LP)分析技术是目前应用广泛的特征参数提取技术,许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型,没有考虑人类听觉系统对语音的处理特点。
Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱,在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的一些研究成果。实验证明,采用这种技术,语音识别系统的性能有一定提高。
也有研究者尝试把小波分析技术应用于特征提取,但目前性能难以与上述技术相比,有待进一步研究。
(三)模式匹配及模型训练技术
模型训练是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型参数,而模式匹配则是根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹配。
语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术(DTW)、隐马尔可夫模型(HMM)和人工神经元 网络 (ANN)。
DTW是较早的一种模式匹配和模型训练技术,它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题,在孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统,目前已被HMM模型和ANN替代。
HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的(不可观测的)具有有限状态的Markor链,另一个是与Markor链的每一状态相关联的观察矢量的随机过程(可观测的)。隐蔽Markor链的特征要靠可观测到的信号特征揭示。这样,语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述,而信号随时间的变化由隐蔽Markor链的转移概率描述。模型参数包括HMM拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点,HMM模型可分为离散隐马尔可夫模型(采用离散概率密度函数,简称DHMM)和连续隐马尔可夫模型(采用连续概率密度函数,简称CHMM)以及半连续隐马尔可夫模型(SCHMM,集DHMM和CHMM特点)。一般来讲,在训练数据足够的,CHMM优于DHMM和SCHMM。HMM模型的训练和识别都已研究出有效的算法,并不断被完善,以增强HMM模型的鲁棒性。
人工神经元 网络 在语音识别中的 应用是现在研究的又一 热点。ANN本质上是一个自适应非线性动力学系统,模拟了人类神经元活动的原理,具有自学、联想、对比、推理和概括能力。这些能力是HMM模型不具备的,但ANN又不个有HMM模型的动态时间归正性能。因此,现在已有人研究如何把二者的优点有机结合起来,从而提高整个模型的鲁棒性。
二、语音识别的困难与对策
目前,语音识别方面的困难主要表现在:
(一)语音识别系统的适应性差,主要体现在对环境依赖性强,即在某种环境下采集到的语音训练系统只能在这种环境下应用,否则系统性能将急剧下降;另外一个问题是对用户的错误输入不能正确响应,使用不方便。
(二)高噪声环境下语音识别进展困难,因为此时人的发音变化很大,像声音变高,语速变慢,音调及共振峰变化等等,这就是所谓Lombard效应,必须寻找新的信号分析处理方法。
(三)语言学、生 理学 、心理学方面的研究成果已有不少,但如何把这些知识量化、建模并用于语音识别,还需研究。而语言模型、语法及词法模型在中、大词汇量连续语音识别中是非常重要的。
(四)我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等分面的认识还很不清楚;其次,把这方面的现有成果用于语音识别,还有一个艰难的过程。
(五)语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决,识别速度、拒识问题以及关键词(句)检测技术等等技术细节要解决。
三、语音识别技术的前景和应用
语音识别技术 发展 到今天,特别是中小词汇量非特定人语音识别系统识别精度已经大于98%,对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展,这些复杂的语音识别系统也已经完全可以制成专用芯片,大量生产。在西方 经济 发达国家,大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、 旅游 、银行信息,并且取得很好的结果。
语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。
参考 文献 :
[1]科大讯飞语音识别技术专栏. 语音识别产业的新发展. 企业 专栏.通讯世界,:(总l12期)
[2]任天平,门茂深.语音识别技术应用的进展.科技广场.河南科技,
[3]俞铁城.科大讯飞语音识别技术专栏.语音识别的发展现状.企业专栏.通讯世界, (总122期)
[4]陈尚勤等.近代语音识别.西安: 电子 科技大学出版社,1991
[5]王炳锡等.实用语音识别基础.Practical Fundamentals of Speech Recognition.北京:国防 工业 出版社,2005
[6](美)L.罗宾纳.语音识别基本原理.北京:清华大学出版社,1999
点击下页还有更多>>>浅谈语音识别技术论文
蝶澈kaixin
无论是来自于实验结果,还是人类的实际经验,都可以得出一个很简单的结论——即神经系统通过对比同一个音源到达两耳之间的时间差(Interaural Time Difference,简称 ITD)以及强度差(Interaural Intensity Difference,简称 IID),就可以判断出声源在水平方向上的位置。对人耳空间定位(包括水平定位以及竖直定位)更细致的研究表明: 低频(以下)的情况下,主要是 ITD 在对声音定位起主要作用;中频(范围内)的情况下,主要是 ITD 和 IID 共同作用;中高频(4KHz-6KHz范围内)的情况下,主要是 IID 起作用;高频(6KHz以上)的情况下,则是耳廓对声波的散射引起的干涉效应起作用。但无论是竖直方向上的声源,还是正前方与正后方声源,都具备同一个特征——即无法提供双耳差线索。这样的声源是如何被人耳定位的?一方面,由于人体的构造原理,被人耳所能接受到的声音会受到耳廓,肩部以及头部构造的影响——一部分声音在传播过程中,遇到人体阻挡时会发生衍射、散射,并与直达耳道的声音在耳道口的位置发生干涉,从而影响到进入人耳的声音频谱;人耳在判断声源位置时会无意识地扭动头部——而这一过程会造成一定的双耳差线索(例如当声源在正前方时,向左轻微扭动头部,则右耳会离声源更近,左右耳之间形成一定的 ITD 与 IID),从而帮助人耳进行声源定位。
jack99huang
本实验室在自然科学基金(编号60375002)的资助下,进行了一年左右的人耳识别技术研究。在早期研究中,对随机采集的243只人耳图像,仅以外耳轮廓曲线的傅立叶系数为特征进行的识别处理,就可以达到80%以上的正确识别率。2003年初首先拍摄了60人(每人3幅图像)的人耳图像库,研究人耳识别的可行性,使用标准的主元分析法就能达到94%的识别率。2004年初建立了77人(每人4幅图像,拍摄条件为角度变化和光照变化)的人耳图像库,旨在进行姿态和光照变化情况下的人耳识别。在该图像库上,我们首先采用基于局部特征的方法进行识别,即提取外耳形状特征和内耳结构特征,利用神经网络进行识别,识别率为85%。其次采用主元分析法提取“特征耳”,利用神经网络进行识别。人耳检测是人耳识别的第一环节,也是我们建立人耳和人脸融合的多模态识别原型系统的重要部分。在已有人耳检测方法的基础上,我们提出了基于改进AdaBoost算法的人耳检测与跟踪:将机器学习引入到人耳检测系统中,通过使用扩展的haar-like特征来表达人耳的点线特征,并参照已有的实验数据对比结果选择Gentle AdaBoost算法训练出一组强分类器,以级联的方式将它们整合起来,构造出多层人耳检测器。为了加快检测速度,一方面实验通过调整分类器的阈值,令分类器前两层实现排除大量疑似非人耳子窗口,仅留下疑似人耳子窗口参与后续分类的功能,另一方面采用固定被检图像大小,缩放检测子窗口的方法对图像遍历,得到检测目标。最终检测器在CAS-PEAL人脸库上测试,检测率达到98%以上;在PⅣ 的PC上对普通CMOS摄像头输入的320*240 dpi视频进行人耳跟踪,速度可达6~7fps。实验结果表明,此人耳检测方法具有较好的实时性和一定的鲁棒性。
硕士论文开题报告要这样写,通过的几率还会大些
学术论文的基本特征就是结构完整性,还有创新性。
高职艺术生心理行为特征研究 艺术高职院校大学生是当代大学生群体的重要组成部分,同时,由于受艺术专业特点影响,他们又具有较强的独立性与特殊性。以下是我为您整理的高
青少年健康人格影响因素与塑造策略论文 健康人格是青少年心理健康的重要标志,也是心理健康教育的终极目标,它不仅关系到青少年自身的成长与成才,更关系到民族的希望和祖
在理论研究的同时,我们采用Visual CH6.0以及OpenGL图形包设计实现了系统平台FaccRecopution,该系统能标定三维人脸的标志点、提取侧轮廓