21世纪全国应用型本科计算机系列实用规划教材：多媒体技术及其应用（第2版）_张明编_9787301217528

　　多媒体技术是集文字、图形、图像、动画、音频、视频于一体的信息处理技术。它综合了当代计算机硬件和软件的最新成果，是计算机技术的重要发展方向。《21世纪全国应用型本科计算机系列实用规划教材：多媒体技术及其应用（第2版）》较系统地介绍了多媒体计算机的基本原理、处理技术和具体应用。
　　全书共10章，分别介绍了多媒体技术的基本概念、音频信号处理技术、数字图像与视频处理技术、多媒体数据压缩技术、计算机动画技术、多媒体信息的组织与管理、多媒体数据存储技术、虚拟现实技术、多媒体通信技术和多媒体技术实验。本书对多媒体技术的主要研究内容、开发设计方法和应用实例做了系统的阐述，并配有教案演示文稿、实验指导和相应的实验素材。
　　在《21世纪全国应用型本科计算机系列实用规划教材：多媒体技术及其应用（第2版）》的编写过程中，力求做到深入浅出，可读易懂。在内容的选取上，遵循多媒体计算机技术原理与多媒体技术应用相结合的原则，全面系统地介绍多媒体计算机原理与多媒体技术应用；既注重理论、方法和标准的介绍，又兼顾实际系统分析、具体技术讨论和实际应用举例。
　　《21世纪全国应用型本科计算机系列实用规划教材：多媒体技术及其应用（第2版）》可作为“多媒体技术原理与应用”或“多媒体应用技术”等相关课程的教科书，也可作为科学技术人员、计算机爱好者以及从事计算机行业的工程技术人员的参考用书。

　　在这一技术中，通过补偿语音速率变化来完成识别，而补偿语音速率变化又是通过前面所述的称为动态时间变形的过程，以及把调整了的连接词短语表示成沿时间轴滑过所存储的单词模板以找到可能的匹配这样一个过程来实现的。如果在给定时间内，任何相似性显示出已经在说出的短语和模板中找到了相同的词，识别器就定位出模板中的关键词。将动态时间变形技术用于连接词短语上来消除或减少由于讲话者个人或其他影响语音的因素，如因兴奋而造成的讲出单词速率的变化。不同情况下，可以用不同的重音和速度说出同一短语。如果我们在每次用不同的重音说出短语时，都抽取所说短语的瞬时写照，并在时间域中生成帧，我们会很快发现每一获取帧是如何相对其他帧而变化的。这就提供了表示所说短语中可能变化的时间变化参数范围。当把动态时间变形技术用于连接词语音识别时，就可以用数学上的压缩或扩展帧去除可能的时间变化，然后把帧与存储模板相比较来进行识别。
　　为什么连接词语音识别是有用的？这是一种命令识别的高级形式，其中命令是短语而不是单一的词。例如，连接词语音识别可以用于执行操作的应用中。如短语“给总部打电话”，会引起查询总部电话并拨号。类似于孤立词语音识别，连接词语音识别可用于命令和控制应用之中。
　　3）连续语音识别
　　这种方法比孤立单词或连接词语音识别都复杂许多。它提出了两个主要问题：分割和标志过程，在此过程中把语音段标记成代表音素、半音节、音节和单词等更小的单元，以及为跟上输入语音并实时地识别词序列所需要的计算能力。用现行的数字信号处理器，可以通过选择正确的CPU体系结构来获得实时连续语音识别需要的计算能力。连续语音识别系统可以分以下3部分。
　　（1）数字化、幅度归一化、时间归一化和参数表示。
　　（2）分割并把语音段标记成在基于知识或基于规则系统上的符号串。用于表征语言段特征的知识类型是：语音学，它描述了语音声音（英语中只有41个音素）；词汇学，它描述了声音类型；语法，它描述了语言的语法结构；语义学，它描述了词和句子语义；语用学，它描述了句子的上下文。多数连续语音识别系统是使用基于语音学的、词汇学的、语法的知识系统。
　　（3）识别词序列并进行语音段匹配。在连续语音识别系统中，语音信号的前端处理与孤立单词语音识别系统中的一样。它把模拟信号转换成数字信号，进行幅度和噪声归一化以使由于周围噪声、讲话者的声音、讲话者相对于麦克风的距离和位置、讲话者的呼吸噪声等引起的语音变化最小化。下一步由参数分析组成，它是一个抽取时间变化的语音参数，如共振峰、辅音、线性可预测编码系数等的预处理阶段。这一步骤有两个目的：首先，它抽取了与下一步相关的时间变化语音参数；其次，它通过抽取相关语音参数而减少了数据量。
　　下一步完成把语音分割为10ms的段并标记这些段。如何标记语音段？孤立词语音识别器使用了把未知发音与已知的参考模式相比较的技术。如果未知发音与已知参考模式之一相类似，那么就找到了一个匹配并识别出了发音。对于连续语音识别，例如，100个词的词汇表会需要超过1000个参考模式。这就要求更大的存储和更快的计算引擎在模式中搜索并完成把模式输入到系统中的处理。如果实时地完成上述处理，这将会是一个很高的要求。为解决这一问题，要把语音分割成更小的符号单元段，它们表示语音、音素、半音节、音节和单词。分割过程生成了10ms的“快照”，并把语音的时间变化表示转换成符号表示。
　　再下一步是对语音段作标记，其中使用了由语音、词汇语法和语义知识组成的知识系统。
　　……

你还可能感兴趣

我要评论