当前语音识别的研究已取得了较为丰硕的成果,在安静环境下性能令人满意,逐渐被应用在诸多人机交互的场合。然而,由于噪声的存在,语音识别系统在实际环境下性能急剧下降,如何提高语音识别的噪声鲁棒性,逐渐成为近年来语音识别的研究热点。本文主要研究农产品市场信息采集作业环境中的语音识别噪声鲁棒性问题,针对当前缺乏面向农产品市场信息采集领域的语音识别引擎,而通用领域的识别算法又不适合解决上述问题,分析环境的噪声特点,面向非特定人和中小规模词汇量的连续汉语普通话识别,训练声学模型,研究适用于该环境下的语音识别鲁棒性方法。
前言
当前语音识别的研究已取得了较为丰硕的成果,在安静环境下性能令人满意,逐渐被应用在诸多人机交互的场合。然而,由于噪声的存在,语音识别系统在实际环境下性能急剧下降,如何提高语音识别的噪声鲁棒性,逐渐成为近年来语音识别的研究热点。本书主要研究农产品市场信息采集作业环境中的语音识别噪声鲁棒性问题,针对当前缺乏面向农产品市场信息采集领域的语音识别引擎,而通用领域的识别算法又不适合解决上述问题,分析环境的噪声特点,面向非特定人和中小规模词汇量的连续汉语普通话识别,训练声学模型,研究适用于该环境下的语音识别鲁棒性方法。本书主要研究的内容包括:
(1)基于隐马尔科夫模型(HMM)框架建立了声学模型,利用自建的农产品市场信息语料库进行训练和测试HHM模型,基于HTK工具包建立了农产品价格语音识别基线系统。
(2)在分析农产品市场信息采集环境的噪声特点的基础上,从模型空间和特征空间对系统采取了多种鲁棒性方法,包括:在声学模型的识别基元选取上,采用了一种扩展的三音素声韵母模型,有效地解决了音节内部和音节间的协同发音问题,大大提高了识别率;针对建模后三音子模型数量急剧增加问题,采用了决策树状态聚类方法,建立了一套二值问题规则集,并将语音学的专业知识融合进决策树,通过聚类减少了三音子模型的数量,有效地解决了训练数据不充分问题;鉴于倒谱均值归一化(CMN)方法在消除信道卷积噪声以及加性噪声方面的良好表现,在农产品市场信息语音识别系统中采用,有效缓解了信道噪声影响。
(3)在信号空间,为了提高输入语音信号的信噪比,采用了谱减类算法进行语音增强,但谱减算法容易带来信道失真和音乐噪声。为了减少这种失真,提出了一种联合语音增强与特征补偿的鲁棒性方法,把倒谱均值方差归一化方法(CMVN)与谱减类算法进行了结合,二者互为补充。实验结果表明,联合后的算法能有效提高系统的识别率,特别是在低信噪比时效果更为明显。
(4)在统计估计理论的框架下,研究了估计幅度与实际幅度的最小均方误差(MMSE)估计器以及对数最小均方误差(logMMSE)幅度估计器。在此基础上提出了一种联合MMSE以及logMMSE幅度估计与CMVN失真补偿的鲁棒性方法。不同农产品市场信息采集环境下的实验证明,该方法具有一定的噪声鲁棒性,多种空间算法的有机结合可以提供系统的鲁棒性,特别是在低信噪比时更为明显。
本书的研究为语音识别在农产品市场信息采集环境中的应用建立了一套鲁棒性方法,为今后语音识别在农业信息采集领域的应用提供了借鉴。然而,由于水平所限,编写时间仓促,书中难免会出现一些错误或者不准确的地方,恳请读者批评指正。
本书初稿完成后,得到了诸叶平、赵俊峰、王向东、周国民等人的审阅和指导,提出了很多宝贵意见,对本书质量的提高有很大帮助,在此向他们表示衷心的感谢。
本书是作者参与承担国家自然科学基金项目的部分研究成果,具有一定的理论性和实际应用性。
著者2018年3月
许金普,男,汉族,1979年生,山东博兴人。1998年考入山东师范大学电教系,2002年毕业。同年7月,进入天津师范大学计算机与信息工程学院学习,2005年获得理学硕士学位。2005年7月进入青岛农业大学(原莱阳农学院)传播学院,从事教学和科研工作,主要研究方向为农业信息技术、计算机网络。
第一章引言()
第一节问题的提出及研究意义()
第二节语音识别概述()
一、语音识别的发展()
二、语音识别的分类()
三、基于统计模型的语音识别()
第三节影响语音识别鲁棒性的因素()
第四节语音识别及声学技术在农业领域的应用()
一、国外研究情况()
二、国内研究情况()
第五节研究内容()
第六节章节安排()
第二章噪声鲁棒性语音识别的研究现状()
第一节噪声分类()
一、加性噪声与乘性噪声()
二、噪声特性分析()
第二节噪声鲁棒性方法研究现状()
一、语音增强()
二、鲁棒性特征提取()
三、模型补偿()
第三章基于HMM框架的农产品价格语音识别()
第一节HMM模型()
一、HMM的概述()
二、HMM的数学定义()
三、HMM的三个基本问题()
第二节基于HTK的实验平台构建()
一、语音数据库()
二、MFCC特征提取()
三、声学模型的设置()
四、识别性能的评价标准()
第四章系统的三音子模型优化及特征规整()
第一节扩展的声韵母建模基元()
一、汉语语音学特点()
二、汉语声母结构()
三、汉语韵母结构()
四、扩展的声韵母识别基元定义()
第二节基于决策树的状态共享()
一、决策树的构造()
二、二值问题集的设计()
三、结点分裂准则()
四、结点停止分裂()
五、结点合并()
第三节增加高斯混合分量()
第四节倒谱特征归一化()
第五节实验及分析()
一、三音子模型识别实验()
二、决策树状态聚类()
三、高斯混合分量增加()
四、倒谱均值方差(CMVN)归一化()
第五章联合谱减增强和失真补偿的鲁棒性方法()
第一节谱减法()
一、谱减的基本原理()
二、使用过减(over subtraction)技术的谱减算法()
第二节多带(multi band)谱减法()
第三节MMSE谱减算法()
第四节实验()
一、MMSE谱减法参数优化实验()
二、不同环境下联合算法实验()
第六章基于统计模型的前端增强与失真补偿的结合()
第一节MMSE幅度谱估计()
一、MMSE幅度估计器()
二、先验SNR的估计()
第二节对数MMSE估计器()
第三节MMSE估计的实现()
第四节实验()
一、采用MMSE估计器与logMMSE方法增强()
二、MMSE、logMMSE与CMVN联合实验()
三、实际环境语音测试()
第五节算法综合比较()
第七章结论及展望()
第一节研究总结()
第二节展望()
参考文献()