您的当前位置:首页正文

语音信号处理技术及应用

来源:图艺博知识网
维普资讯 http://www.cqvip.com

科技信息 0计算机与网络信息技术0 SCIENCE INFORMATION 2006年第1期 语音信号处理技术及应用 叶晓舟’刘文华 (1中南大学 湖南 长沙410083;2、湖南建材高等专科学校湖南衡阳421008) 摘要:文章介绍了语音信号处理的关键技术,论述了在语音识别与合成和多媒体数据库中基于内容的语音数据检索的应用特点,指出了建 立分层次的话音特征表示将有利于语音特征提取和满足不同层次的应用需要。 关键词:语音;信号处理;语音识别;语音合成;基于内容的检索 对于移动通信来说,最多的信息是语音信号,语音编码的技术在数 字移动通信中具有相当关键的作用,高质量低速率的语音编码技术是数 字移动网的永远的追求。所谓语音编码是信源编码,它是将模拟语音信 号变成数字信号以便在信道中传输。除了通信带宽的要求外,计算机存 储容量的限制也要求对语音信号进行压缩,以满足海量数据情况下进行 实时或准时计算机处理的目的。 语音信号处理的关键技术 语音信号处理的理论基础就是一般的数字信号处理理论,它的主要 研究内容是语音编码和语音压缩技术。考虑到人对听觉媒体的感应特 点,研究语音信号处理必须与声音心理学联系起来。因此这里我们把声 音心理学也列为语音信号处理的关键技术之一。 1.声音心理学 声音的物理属性和心理属性既有联系电有区别。声 音有两个最明显的量纲。即响度和单调,其它还有音色、谐和、不谐和和 乐意等。物理属性主要有强度和频率。声音的正弦波的强度增加,声的响 度也增加;频率增加,音调南昌增高。但这些关系不是线性的,且是耦合 的,如频率的变化既影响响度也影响音调。其数量上的关系可以用等响 曲线等来描述。但更精确的关系复杂,难以建立量化模型。如即使想从客 观上给出声音失真度的度量都很困难 人的大脑处理听觉信息还有一些特性,产生了一些客观存在的效 应,如屏蔽效应。声的响度不仅取决于自身的强度和频率,而且也依同时 出现的其它声音而定。各种声音可以互相掩蔽,一种声音的出现町能使 得另一种声音难于听清。它分为听觉屏蔽、频谱屏蔽和瞬态屏蔽。频谱屏 蔽是高电平音调使附近频率的低电平声音不能被人耳听到。声音的屏蔽 特性可以用于声音特别是语音信号的压缩。 2.语音编码 语音编码分为三类:波形编码、参量编码和混合编码。 波形编码是将时域信号直接变换为数字代码,其目的是尽可能精确地再 现原来的话音波形。自适应量化、自适应比特分配和矢量量化等等。 二、在语音识别与合成中的应用 语音识别的研究是从2O世纪5O年代开始的,但直到60年代中期 才取得了实质性进展,其重要标志就是日本学者Itakura将动态规划算 法用于解决语音识别中语速多变的难题,提出了动态时间收缩算法 (DTW:Dy namic Time warping)。其基本思想是:在训练阶段,从词汇表 中通过信号处理技术提出每个词的特征向量(时域特征、频域特征、尺度 特征及联合颁特征),作为标准模板存人模板库中。在识别阶段,将输入 语音的特征向量集资与模板库中的各个标准模板进行比较,计算类似 度。将类似度最高的标准模板所对应的词不达意汇输出。在这里和一般 的模式识别不一样,存在几个问题:说话者语速不一致的问题;大词汇表 的问题导致计算量大的问题;协同发音的问题(即同一音素的发音随上 下文不同而变化);对于非特定人语音识别,还有一个语音多变性的困 一音数据库进行检索就不得不在建立数据库时就事先输入并与媒体数据 一起存储对应的字符信息,对这些语音的语义进行描述。在检索时。由人 、把这些语义再转换为相应的字符,根据字符的匹配查找相应的媒体信 息。很显然,这个转换过程妨碍了有效地交互,被子称为“转换障碍”。很 难满足用户的各种需求。对设计者来说,给语音数据赋予能够表示全部 语义特征的关键词也非常困难。这与个人的经验、知识和对语音信息的 理解程度有关,而且也并不是所有对象的所有特征都能用字符来描述。 基于内容检索就是要从媒体中直接地提取媒体的语义线索。根据这些语 义线索进行检索。这就把检索过程与语义的提取直接地联系到了一起。 使得检索过程更加有效和适应性更强。 基于内容的语音检索是一种集成综合技术,不仅要确定是否能够找 到,而且还要确定相应的输入输出方法、存储方法、媒体问的组织方法 等。它建立新的媒体数据表示方法和数据模型。采用有效和可靠的查询 处理算法,使用户可以智能化的查询接口的辅助下完成查询接口的辅助 下完成查询检索工作。基于内容的语音检索技术一般用于多媒体数据库 中,也可以单独的建立应用系统,如语音库系统。该检索系统一般包括: 插入系统,特征提取子系统,数据库,查询子系统。其中特征提取子系统 其基本原理是在时间轴上对模拟话音接一定的速率抽样,然后将幅度样 本分层萤化并用代码表示。对于比特速率较高的编码信号,波形编码技 术能够提供相当好的话音质量,但对于低速率语音编码信号,波形编码 瓣话音质量显著下降。 参量编码是将信源号在频率域或其它正交变换域提取特征参量,并 将其变换为数字代码进行传输 它是以发音机制的模型作为基础,用~ 套模拟声带频谱特性的滤波器系数和若干声源参数来描述这个编码。这 种编码技术能实现低速率语音编码。 语音数据压缩技术要实现低速率、高质量和少容量的语音编码,必 须采用信息压缩技术。语音信息压缩技术可分为两类:波形处理技术和 量化技术。波形处理技术的目标是削减语音波形的冗余度,包括线性预 测分析、频带分割、正交变换和分析合成等。量化技术的目标是在幅度量 化上实现优化。媒体的内容语义是基于内容检索的基础,与任务有关也 与领域有关。基于内容的检索应该分阶段完成,第一阶段先用无领域知 识的方法缩小检索空问,第二阶段再逐步利用领域知识进行更细致的查 找和匹配。 声音的内容检索包括特定模式的查找,特定词、短语、音乐旋律和特 定声音的查找等。早期的研究更多的是致力于语音内容的识别。但对数 据库来说查找非语音信号可能会更有效,例如讲话人的性别。声音的间 隔,特殊的背景于前景声的组合等。由于声音常常伴随其它媒体的检索。 例如,在足球比赛时,一陈大声的喧哗可能意味着进了球,只要能够检索 出这段声音,对视频的索引也就可以基本确定。特征匹配是基于内容检 难。 索最关键的部分。 语音识别的这些问题。除了在优化算法上应有所突破外,一个最根 从上述论述可以知道,基于内容的语音检索中的关键技术是语音特 本的问题是语音特征景的提取问题。目前能够用于模板匹配的特征向量 征的提取。建立分层的语音特征表示将有利于特征提取,同时也便于不 还不能达到少而精的要求。能够反映特定人和非特定人在语速变化下的 同层次的语音信息的检索与新的信息发现。 不变特征量、在连续语音识别中的协同发音不变量等特征量还有待进~ 四、结论 步的研究。这些工作的进展依赖于语音信号处理技术及一般的信号处理 现代数字信号处理的进步都能在语音信号处理技术中得到应用。语 技术的突破。 音信号是壤能体现信号非线性的一个领域。现代数字信号处理的一个主 语音合成技术就是所谓“会说话的机器”。它可分为三类;波形编码 要发展趋势是对非线性、非平稳信号的研究。因此。循环平稳信号分析、 合成、参数式合成和规则合成。波形编码合成以语句、短语、词或音节为 多谱分析和时频尺度理论对于语音信号的表示,关键特征的捕捉有很重 合成单元。合成单元的语音信号被录取后直接进行数字编码,经数据压 要的应用前景。在此基础上,结合语音语义理论的研究,开展多层次的语 缩组成一个合成语音库。重放时根据待输出的信息,在语音库中取出相 音信号的表示将对语音信号的应用有重要价值。 ...————————一 L——一....—— 应的合成单元的波形数据,将它们连接在一起。经解码还原成语音。参数 式合成以音节或音索为合成单元。首先对所有待合成单元的语音进行分 参考文献 析,提取有关语音参数,将其编码后组成合成语音库。输出时根据待合成 [1]郭军,智能信息技术,北京:北京邮电大学出版社,1999. 的语音信息从语音库中取出相应的合成参数,经编辑和连接,顺序送入 [2]胡晓峰、李国辉,多媒体系统,北京:人民邮电出版社,1997. 语音合成器。语音合成器在合成参数的控制下,重新还原语音波形。规则 [3]SolarisI.数字技术:数字视频和音频压缩,北京:电子工业出版社, 2o0n 合成则是通过语音学规则产生语音。 i、多媒体数据库中的语音数据检索 所谓基于内容检索就是从语音媒体数据中提取出特定的信息线索, 然后根据这些线索从大量存储在数据库中的语音媒体中进行查找,检索 出具有相似特征的语音数据。语音的音调、含义等是难以用符号化方法 描述的信息线索。人能够理解语音的含义,但要利用这些语义线索对语 

因篇幅问题不能全部显示,请点此查看更多更全内容

Top