本书从技术、应用和产业3个维度为切入点,对智能语音语义领域相关的热点和趋势展开研究。本书以“人与机器的对话”开篇,讲述人类语音生成、传播和感知的过程,引发对于机器智能语音听说的思考,进而阐述技术探索发展史;然后,分析了以语音交互为核心的技术现状,综合剖析提出全双工、端到端模型构建、语音假冒攻击等热点;其次,从政策、投融资和产业规模上,分析整体智能语音产业环境,纵观国内外企业在相关技术和产品上的积极布局,介绍了智能语音的产业链和产业格局;最后,围绕语音交互技术形成的应用,以智能汽车、智能家居、可穿戴设备、智能客服、医疗、教育等诸多细分领域为代表,提出“AI+基础服务”“AI+硬件设备”“AI+垂直行业”的3种应用转化参考模式,并列举实际具体案例和解决方案。
本书适合从事人工智能技术研发、产品应用、市场规划的工程技术人员和管理人员参考使用,也可作为高等院校人工智能相关的专业师生参考。同时,也适合对人工智能语音技术感兴趣的相关人员阅读。
1.中国信息通信研究院、科大讯飞、清华大学等多位大咖推荐作序。
2.知识性:本书涉及智能语音各项前沿技术,涵盖了语音交互、声纹识别、全双工等多项新技术。
3.丰富性:本书涵盖了技术、产业和应用3个方面,介绍智能语音全链条和各环节的现状趋势。
4.系统性:本书介绍人类语音听说和机器语音听说的异同,包含语音学、语言学和计算机等多学科交叉,系统了解技术的衍生变化。
5.实用性:本书汇集了智能语音应用在各领域、各场景的实际案例,从真实的案例中反映技术的产业赋能。
李荪
研究方向包括智能语音技术、AI数据集构建、语音交互产品服务等,参与国家工信部、网信办等部委课题专项《人工智能、基础软件联盟和平台建设》、《深度融合发展的战略路径研究》等,主持和参与研究课题《全球人工智能关键技术应用及产业化趋势分析》、《智能语音技术产业热点和发展趋势》等,发表核心、EI期刊杂志论文3篇,牵头起草语音合成、语音识别、声纹识别、口语评测、语音采集等智能语音技术服务的多项国际和行业标准。
殷治纲
先后在各类期刊、会议、报纸发表论文三十余篇,参与大型语言数据库项目二十余项,参加编写国家技术质量监督局《汉语语音库与标注通用规范》和《中国大百科全书·语言学卷》等,主持和参与国家社会科学基金、中国哲学社会科学创新工程、国家863计划、国家973计划、国家自然科学基金、国家十五课题、社科院重点学科、美国国家科学基金NSF、欧盟TC-STAR项目等国家和国际科研项目,并参加与诺基亚、摩托罗拉、科大讯飞等国际语音公司联合研究课题。研究兴趣包括实验语音学、语料库语言学、自然语言处理、语言类型学、法律语言学、话语分析、语言战略等内容。
曾然然
2006年毕业于北京邮电大学,之后在Intel(中国)有限公司从事Intel通信芯片在中国区的业务发展。现在中国电信研究院从事人工智能,智能语音研发工作,在声纹识别、多轮对话、语义分析和处理、AI技术商业部署等领域有丰富的技术研究和产品研发经验。2019年入选百度黄埔学院人工智能首席AI架构师,2019年1月受聘为北京工业大学计算机学院人工智能方向硕士研究生导师(兼职)。
目录
第 1章 从人际交流到人机对话 001
1.1 语言“塑造”了人类 002
1.1.1 语言在人类进化过程中的作用 003
1.1.2 语言的功能 004
1.2 语言与语言科学 005
1.2.1 人类语言概况 005
1.2.2 和语言有关的科学与技术 007
1.3 语音的产生与感知 008
1.3.1 语音交互与言语链 008
1.3.2 语音的声学基础 009
1.3.3 语音产生的生理基础 015
1.4 人与机器的对话 021
1.4.1 人类语言交际的转向 021
1.4.2 语音的数字化表达 022
第 2章 智能语音基本技术 027
2.1 主流的语音交互技术 028
2.1.1 语音识别 029
2.1.2 声纹识别 048
2.1.3 语音合成 060
2.1.4 自然语言处理 070
2.1.5 对话管理 082
2.1.6 角色分离 086
2.1.7 语音增强 091
2.2 深度学习成为加速器:新技术到“黑科技” 106
2.2.1 端到端技术 106
2.2.2 预训练机制 110
2.2.3 模型压缩和轻量化部署 117
第3章 智能语音产业发展 125
3.1 产业环境 126
3.1.1 产业发展历程 126
3.1.2 重点政策解析 127
3.1.3 发展规划布局 132
3.1.4 创新合作模式 133
3.2 市场及生态 134
3.2.1 行业市场价值逐渐释放 134
3.2.2 生态格局呈现多元化 137
3.2.3 企业成长方面的一些思考 146
3.3 标准及规范 148
3.3.1 技术评估指标介绍 148
3.3.2 国内外标准制定现状 153
3.3.3 标准需求及发展趋势 160
3.4 产业应用创新实践 161
3.4.1 “AI语音+终端”:消费级市场潜力显现,
疫情催发新业态 162
3.4.2 “AI语音+服务”:智能语音深度赋能平台
服务 171
3.4.3 “AI语音+场景”:突破价值释放“最后
一公里” 180
第4章 AI语音与热点话题和技术:千丝万缕的联系 207
4.1 语音+大数据+云 208
4.1.1 我们身边的大数据 208
4.1.2 语音的特殊身份 209
4.1.3 数据类型与存储 210
4.1.4 语音结构化 213
4.2 语音+安全 220
4.2.1 语音欺诈,又一个潘多拉盒子 220
4.2.2 知己知彼:了解和研究语音欺诈、攻击
手段 221
4.2.3 降维打击 :抗攻击防欺诈的一张盾牌 225
4.2.4 国内政策法规的保护臂膀 227
4.2.5 个人语音数据全生命周期的安全建议 228
4.3 语音+普惠服务 229
4.3.1 新技术的应用要做到普惠 229
4.3.2 智能语音技术可以提供什么样的普惠服务 230
4.3.3 科技和人类的和谐共生 235
4.4 语音+多模态交互 235
4.4.1 语音交互新挑战和探索 235
4.4.2 多模态交互成为趋势 236
4.4.3 语音助手向智慧助手发展 237
结束语 239
参考文献 245