语音识别及其在农业信息采集中的应用_许金普_9787511636560

当前语音识别的研究已取得了较为丰硕的成果，在安静环境下性能令人满意，逐渐被应用在诸多人机交互的场合。然而，由于噪声的存在，语音识别系统在实际环境下性能急剧下降，如何提高语音识别的噪声鲁棒性，逐渐成为近年来语音识别的研究热点。本文主要研究农产品市场信息采集作业环境中的语音识别噪声鲁棒性问题，针对当前缺乏面向农产品市场信息采集领域的语音识别引擎，而通用领域的识别算法又不适合解决上述问题，分析环境的噪声特点，面向非特定人和中小规模词汇量的连续汉语普通话识别，训练声学模型，研究适用于该环境下的语音识别鲁棒性方法。

前言
当前语音识别的研究已取得了较为丰硕的成果，在安静环境下性能令人满意，逐渐被应用在诸多人机交互的场合。然而，由于噪声的存在，语音识别系统在实际环境下性能急剧下降，如何提高语音识别的噪声鲁棒性，逐渐成为近年来语音识别的研究热点。本书主要研究农产品市场信息采集作业环境中的语音识别噪声鲁棒性问题，针对当前缺乏面向农产品市场信息采集领域的语音识别引擎，而通用领域的识别算法又不适合解决上述问题，分析环境的噪声特点，面向非特定人和中小规模词汇量的连续汉语普通话识别，训练声学模型，研究适用于该环境下的语音识别鲁棒性方法。本书主要研究的内容包括：
（1）基于隐马尔科夫模型（HMM）框架建立了声学模型，利用自建的农产品市场信息语料库进行训练和测试HHM模型，基于HTK工具包建立了农产品价格语音识别基线系统。
（2）在分析农产品市场信息采集环境的噪声特点的基础上，从模型空间和特征空间对系统采取了多种鲁棒性方法，包括：在声学模型的识别基元选取上，采用了一种扩展的三音素声韵母模型，有效地解决了音节内部和音节间的协同发音问题，大大提高了识别率；针对建模后三音子模型数量急剧增加问题，采用了决策树状态聚类方法，建立了一套二值问题规则集，并将语音学的专业知识融合进决策树，通过聚类减少了三音子模型的数量，有效地解决了训练数据不充分问题；鉴于倒谱均值归一化（CMN）方法在消除信道卷积噪声以及加性噪声方面的良好表现，在农产品市场信息语音识别系统中采用，有效缓解了信道噪声影响。
（3）在信号空间，为了提高输入语音信号的信噪比，采用了谱减类算法进行语音增强，但谱减算法容易带来信道失真和音乐噪声。为了减少这种失真，提出了一种联合语音增强与特征补偿的鲁棒性方法，把倒谱均值方差归一化方法（CMVN）与谱减类算法进行了结合，二者互为补充。实验结果表明，联合后的算法能有效提高系统的识别率，特别是在低信噪比时效果更为明显。
（4）在统计估计理论的框架下，研究了估计幅度与实际幅度的最小均方误差（MMSE）估计器以及对数最小均方误差（logMMSE）幅度估计器。在此基础上提出了一种联合MMSE以及logMMSE幅度估计与CMVN失真补偿的鲁棒性方法。不同农产品市场信息采集环境下的实验证明，该方法具有一定的噪声鲁棒性，多种空间算法的有机结合可以提供系统的鲁棒性，特别是在低信噪比时更为明显。
本书的研究为语音识别在农产品市场信息采集环境中的应用建立了一套鲁棒性方法，为今后语音识别在农业信息采集领域的应用提供了借鉴。然而，由于水平所限，编写时间仓促，书中难免会出现一些错误或者不准确的地方，恳请读者批评指正。
本书初稿完成后，得到了诸叶平、赵俊峰、王向东、周国民等人的审阅和指导，提出了很多宝贵意见，对本书质量的提高有很大帮助，在此向他们表示衷心的感谢。
本书是作者参与承担国家自然科学基金项目的部分研究成果，具有一定的理论性和实际应用性。

著者2018年3月

你还可能感兴趣

我要评论