《神经网络机器翻译技术及产业应用》由百度首席技术官王海峰、百度人工智能技术委员会主席何中军、百度技术委员会主席吴华联合撰写,以产业需求为牵引,介绍了新时期机器翻译的产业需求特点、神经网络机器翻译的原理与方法、技术进展及产业应用。全书兼具理论与实践,既有对原理与方法的介绍,又有丰富的产业应用案例。
《神经网络机器翻译技术及产业应用》共九章:
第1章 绪论,首先阐述了机器翻译发展的时代背景和技术发展脉络,从多个角度回顾了机器翻译的发展历程,介绍了当前机器翻译的发展现状以及产业应用需求特点和挑战。
第2章 翻译语料获取与译文质量评价,介绍了翻译语料获取的相关技术以及机器翻译常用的评价方法,包括人工评价、自动评价、面向产业应用的评价。
第3章 神经网络机器翻译,首先介绍了神经网络机器翻译的基本原理和模型结构,接下来介绍了多种翻译模型,后介绍了利用开源工具搭建一个神经网络机器翻译系统的方法。
第4章 高性能机器翻译,结合百度、谷歌等公司的机器翻译系统实践,首先介绍了神经网络机器翻译的产业化进程,然后介绍了常用的提升系统性能的方法,后介绍了开源工具平台中的高性能实现方案。
第5章 多语言机器翻译,首先介绍了数据增强技术以扩充训练数据规模,然后介绍了基于无监督的训练方法以及多种翻译模型,后介绍了近年来快速发展的多语言预训练技术及其在多语言机器翻译上的应用。本章结尾还结合百度、谷歌、脸书等公司的实践,介绍了大规模多语言机器翻译系统。
第6章 领域自适应,介绍了领域自适应技术,通过数据增强、优化训练等多种手段,使翻译模型在具体领域上获得较高的翻译质量。
第7章 机器同声传译,首先介绍了机器同传的主要挑战和发展现状,然后介绍了目前常用的机器同传数据集和评价方式,后介绍了如何使用开源工具搭建一个机器同传系统。
第8章 机器翻译产业化应用,着重介绍了现实生活中机器翻译丰富的产品形式和广泛应用。
第9章 总结与展望,对全书进行了总结,并对机器翻译的未来发展进行展望。
适读人群 :研究生、科研人员、从业者等
◆系统介绍神经网络机器翻译原理和主流技术
◆结合丰富实例详尽讲解关键技术实现
◆详细介绍产业级实用系统及产业应用
语言是人类区别于其他生物重要的特征之一,是人类沟通和交流的主要方式。地球上有数千种语言,体现了人类的社会多元化和文明多样性。但同时,跨越语言障碍、自由沟通交流也是人类长久以来的梦想。机器翻译技术的进步正在让梦想成为现实。尤其是近年来神经网络翻译快速发展,机器翻译质量大幅提高,能够为更广泛的应用提供高品质、高效率的翻译服务,同时也激发了丰富多样的翻译需求。技术的进步、时代的召唤加速了机器翻译的大规模产业应用,机器翻译在经济社会进步、文化交流拓展等方面发挥着越来越大的作用。
本书作者多年来致力于机器翻译技术研究和产业化工作。在本书中,作者以产业需求为牵引,分析了新时期机器翻译的产业需求特点和挑战,介绍了神经网络翻译的基本理论、前沿技术,以及面向产业应用的实用系统开发方法。本书特色如下:,紧扣产业需求特点和产业应用实践,厘清技术发展脉络;第二,着重介绍现阶段主流技术,力图使读者能够快速了解和掌握方法;第三,注重实践,读者可以按照书中讲述,在开源平台上快速搭建实用的机器翻译系统,学以致用;第四,力求语言简洁,辅以图表帮助读者理解相关原理和方法。
全书共9章。第1章结合时代背景,简要概述机器翻译的发展历程,分析机器翻译的产业需求特点及技术挑战。第2章主要探讨机器翻译语料获取技术,大规模高质量语料是构建机器翻译系统的重要基础。此外,该章还将讨论机器翻译常用的评价方法,包括人工评价、自动评价以及面向产业应用的评价等。第3章介绍目前主流的机器翻译方法神经网络机器翻译,包括基本原理、主要模型结构(循环神经网络、卷积神经网络、全注意力机制网络、非自回归网络等),以及如何利用开源工具搭建神经网络机器翻译系统。第4章结合产业化实践,分析高性能机器翻译系统,包括模型结构优化、模型压缩、系统部署等。第5章讲述多语言机器翻译,针对资源稀缺、语言数量多、部署难度大等技术挑战,从数据增强、多语言翻译统一建模、多语言预训练等方面展开分析,并结合百度、谷歌、脸书等公司的实践,介绍大规模多语言机器翻译系统。第6章探讨领域自适应技术,介绍如何通过数据增强、优化训练、术语翻译、记忆库等,进一步提升翻译模型在具体领域上的翻译质量,满足不同场景的实际需求。第7章分析机器同声传译,包括机器同传的主要挑战、发展现状、主流技术(级联模型以及端到端模型等)、开放数据集、评价方式等,同时介绍如何使用开源工具搭建机器同传系统。第8章介绍机器翻译丰富的产品形式和广泛的产业应用。第9章对全书进行总结,并对机器翻译的未来发展进行展望。
本书由王海峰、何中军、吴华编著。本书编写过程中,还得到很多专家、朋友的大力帮助。宗成庆研究员、刘挺教授、周明博士对本书的结构和写作思路提出了宝贵建议。刘占一、刘璇、孙萌、张睿卿、高鹏至、张力文对本书的部分内容进行了校对,并在参考文献整理、开源系统实现等方面做了细致工作。在此表示衷心的感谢!希望本书能够对相关领域的学生、科研人员、技术开发人员以及语言服务行业从业人员等有所帮助。
技术发展日新月异,写作过程如履薄冰。受作者水平所限,挂一漏万,错谬难免。欢迎读者提出宝贵意见,不胜感激!
作者
2022年8月于北京
王海峰,百度首席技术官,深度学习技术及应用国家工程研究中心主任。国际计算语言学学会(ACL)首位华人主席、ACL亚太分会创始主席、ACL Fellow、IEEE Fellow、CAAI Fellow。长期从事机器翻译、自然语言处理、深度学习等人工智能技术的研究及产业化工作。以完成人身份获国家技术发明二等奖、国家科技进步二等奖、中国专利金奖、北京市科技进步一等奖、中国电子学会科技进步一等奖,获光华工程科技奖、全国创新争先奖、吴文俊人工智能杰出贡献奖等。
何中军,百度人工智能技术委员会主席。长期从事机器翻译研究与开发,并致力于推动机器翻译大规模产业化应用。曾获国家科技进步二等奖、北京市科技进步一等奖、中国电子学会科技进步一等奖、中国专利银奖等多项奖励。被评为中国电子学会优秀科技工作者北京青年榜样等。
吴华,百度技术委员会主席。长期从事机器翻译、自然语言处理、机器学习等技术的研究及产业化工作。曾获国家技术发明二等奖、国家科技进步二等奖、中国专利金奖、北京市科技进步一等奖、中国电子学会科技进步一等奖。被评为杰出工程师青年北京学者等。
第1章 绪论 1
1.1 机器翻译发展简介 3
1.2 机器翻译代表性方法 6
1.2.1 基于规则的机器翻译 6
1.2.2 统计机器翻译 8
1.2.3 神经网络机器翻译 11
1.3 发展现状 13
1.4 产业应用需求特点及挑战 15
1.4.1 高翻译质量 15
1.4.2 高系统性能 17
1.4.3 多语言翻译 18
1.4.4 领域自适应 19
1.4.5 跨模态翻译 20
1.5 本书结构 21
参考文献 24
第2章 翻译语料获取与译文质量评价 27
2.1 概述 28
2.2 机器翻译语料库类型 31
2.2.1 双语语料库 31
2.2.2 单语语料库 33
2.3 公开语料库及系统评测 34
2.3.1 语言数据联盟与NIST评测 34
2.3.2 欧洲议会语料库与WMT评测 35
2.3.3 语音翻译语料库与IWSLT评测 35
2.3.4 中文语言资源联盟与CCMT评测 36
2.4 从互联网获取机器翻译语料 36
2.4.1 互联网双语语料存在形式 37
2.4.2 互联网语料常见问题 39
2.4.3 双语语料挖掘与加工 40
2.5 机器翻译质量评价 44
2.5.1 人工评价 44
2.5.2 自动评价 46
2.5.3 面向产业应用的评价 53
参考文献 55
第3章 神经网络机器翻译 57
3.1 概述 59
3.2 基于循环神经网络的模型 62
3.2.1 基本模型 63
3.2.2 双向编码 65
3.2.3 注意力机制 66
3.2.4 长短时记忆与门控循环单元 68
3.3 基于卷积神经网络的翻译模型 71
3.4 全注意力模型 75
3.4.1 基本思想 76
3.4.2 模型结构 78
3.4.3 性能分析 79
3.5 非自回归翻译模型 80
3.6 搭建一个神经网络机器翻译系统 85
3.6.1 环境准备 85
3.6.2 模型训练 86
3.6.3 解码 88
3.6.4 效果评估 88
参考文献 89
第4章 高性能机器翻译 93
4.1 概述 94
4.2 早期产业化神经网络机器翻译系统 96
4.2.1 百度神经网络机器翻译系统 97
4.2.2 谷歌神经网络机器翻译系统 101
4.3 Transformer模型优化 104
4.3.1 高效Transformer 105
4.3.2 针对机器翻译的优化 109
4.4 模型压缩 112
4.4.1 剪枝 112
4.4.2 量化 115
4.4.3 知识蒸馏 119
4.5 系统部署 121
4.5.1 分布式系统部署 121
4.5.2 智能硬件设备 122
4.6 开源工具 123
参考文献 124
第5章 多语言机器翻译 131
5.1 概述 133
5.2 数据增强 134
5.2.1 基于枢轴语言的合成语料库方法 134
5.2.2 回译技术 136
5.3 无监督机器翻译 138
5.3.1 基本原理 139
5.3.2 跨语言向量映射 140
5.3.3 基于去噪自编码器和回译技术的翻译模型 142
5.3.4 基于对偶学习的机器翻译模型 144
5.4 多语言翻译统一建模 145
5.4.1 基于多任务学习的翻译模型 146
5.4.2 基于语言标签的多语言翻译模型 148
5.5 多语言预训练 151
5.5.1 预训练技术简介 152
5.5.2 多语言预训练模型 158
5.5.3 方法比较 163
5.6 多语言机器翻译系统 165
5.6.1 百度多语言机器翻译 165
5.6.2 谷歌多语言机器翻译 166
5.6.3 脸书多语言机器翻译 168
参考文献 169
第6章 领域自适应 177
6.1 概述 179
6.2 领域数据增强 180
6.2.1 领域数据聚类 180
6.2.2 领域数据筛选 182
6.2.3 领域数据扩充 184
6.3 模型训练及优化 184
6.3.1 预训练加微调技术 185
6.3.2 领域数据加权训练 186
6.3.3 模型参数部分调优 187
6.3.4 基于知识蒸馏的领域自适应 188
6.3.5 基于课程表学习的领域自适应 189
6.4 专有名词和术语的翻译 190
6.4.1 前处理技术 191
6.4.2 后处理技术 193
6.4.3 融合专名/术语翻译的解码算法 193
6.5 翻译记忆库 195
6.5.1 基于记忆库的数据增强 196
6.5.2 融合记忆库的翻译模型 197
6.5.3 k-近邻翻译模型 198
6.6 面向产业应用的领域自适应解决方案 199
参考文献 200
第7章 机器同声传译 207
7.1 概述 209
7.2 主要挑战 211
7.2.1 技术挑战 211
7.2.2 数据挑战 213
7.2.3 评价挑战 214
7.3 级联同传模型 216
7.3.1 wait-k模型 216
7.3.2 语义单元驱动的同传模型 220
7.3.3 基于强化学习的同传模型 224
7.3.4 基于单调无限回溯注意力机制的同传模型 226
7.4 端到端语音翻译及同传模型 228
7.4.1 从级联模型至端到端模型的过渡 229
7.4.2 基于多任务学习的端到端模型 231
7.4.3 语音识别与翻译交互解码模型 234
7.4.4 端到端同传模型 236
7.5 同传模型鲁棒性 241
7.5.1 融合音节信息的翻译模型 241
7.5.2 语音识别纠错 242
7.5.3 鲁棒性翻译模型 244
7.6 同传数据 245
7.6.1 欧洲语言同传语料库 246
7.6.2 日英同传语料库 247
7.6.3 中英同传语料库 247
7.7 同传评价 249
7.7.1 基于阅读理解的翻译质量评价 249
7.7.2 基于平均延迟的同传时延评价 250
7.7.3 综合翻译质量和同传时延的评价 252
7.8 机器同传系统及产品 252
7.8.1 机器同传系统 253
7.8.2 机器同传产品形式 254
7.8.3 机器辅助同传 254
7.9 搭建一个机器同传系统 256
7.9.1 数据准备 256
7.9.2 训练 257
7.9.3 解码 257
参考文献 258
第