文本语义向量化表示是指将自然语言编码为计算机可处理的、蕴含语义特征的向量的过程。在人工智能领域中,语义表示学习是实现机器理解自然语言的第一步,是机器处理文本数据和完成各种自然语言处理任务的基础,其性能的优劣直接影响下游任务的效果。因此,语义表示学习具有重要的研究意义和实用价值。本文梳理了文本语义向量化表示的基础理论,详细介绍了分布式表示方式、融合知识表示方法、任务导向的表示方法和预训练语言模型等典型方法,并以机器阅读理解任务为例,介绍了文本语义向量化表示在自然语言处理领域的实际应用。最后本文对文本语言向量化表示进行了总结和未来研究方向展望。
黄河燕,1963年10月生,籍贯湖南。1986年1月加入中国共产党,1989年3月参加工作。1983年毕业于武汉测绘科技大学计算机系获学士学位,1986年毕业于国防科技大学计算机系获硕士学位,1989年毕业于中国科学院计算技术研究所获博士学位,后留所工作,先后任助理研究员、副研究员、研究员;1997年至2009年在中科院计算机语言信息工程研究中心任副主任、研究员并先后兼任中科院华建集团党委委员、副书记,2009年至今任北京理工大学计算机学院院长、教授,兼北京市海量语言信息处理与云计算应用工程技术研究中心主任及中-德语言信息处理联合实验室主任;现为国家"863计划”主题专家组成员、中国人工智能学会及中国中文信息学会副理事长、教育部计算机教学指导委员会委员、北京市学位委员会委员。主持承担了国家自科基金重点项目、"973计划”课题、"863计划”项目等20多项国家级科研攻关项目,获得了国家科技进步一等奖等8项国家级和省部级奖励,1997年享受国务院政府特殊津贴,2014年当选全国优秀科技工作者。
第1章 绪论 1
1.1 研究背景及意义 1
1.2 基本定义及问题描述 3
第2章 语义表示学习的基础信息 6
2.1 发展历史 6
2.2 实际应用 8
第3章 分布表示方法 12
3.1 概述 12
3.2 基于矩阵分解的方法 15
3.3 基于神经网络的方法 19
3.4 方法总结与对比 26
第4章 预训练语言模型 27
4.1 ELMo模型 27
4.2 GPT模型 28
4.3 BERT模型 29
4.4 RoBERTa模型 31
4.5 XLNet模型 32
4.6 方法总结与对比 33
第5章 增强关联模式的语义表示方法 35
5.1 引言 35
5.2 相关工作 37
5.3 预备知识 39
5.3.1 基于上下文信息的语义表示模型 39
5.3.2 关联模式挖掘 40
5.4 增强关联模式的语义表示模型 41
5.4.1 基于CBOW的APWE模型 42
5.4.2 基于Skip-gram的APWE模型 43
5.5 实验 44
5.5.1 对比方法 45
5.5.2 实验I:文本分类 45
5.5.3 实验II:查询词扩展 48
5.5.4 参数分析 51
5.5.5 实例分析 52
5.6 本章小结 53
第6章 基于知识的语义向量化表示 55
6.1 引言 55
6.2 相关工作 57
6.2.1 知识库表示 57
6.2.2 知识与文本联合表示 59
6.3 基于语义结构的语义表示模型 60
6.3.1 语义结构定义 60
6.3.2 SENSE模型 61
6.4 实验 63
6.4.1 对比方法 64
6.4.2 参数设置 65
6.4.3 任务I:词相似度测量 66
6.4.4 任务II:词汇类比推理 67
6.4.5 任务III:文本分类 69
6.4.6 任务IV:查询词扩展 71
6.5 本章小结 73
第7章 文本分类中任务导向的语义表示方法 74
7.1 引言 74
7.2 相关工作 76
7.3 任务导向的语义表示模型 78
7.3.1 语义特征表示 78
7.3.2 任务特征表示 78
7.3.3 联合表示模型及优化 80
7.4 实验 80
7.4.1 数据集 80
7.4.2 对比方法 82
7.4.3 实验参数设置 82
7.4.4 整体评测效果 84
7.5 实例分析 87
7.6 本章小结 89
第8章 文本语义向量化表示在机器阅读理解任务中的应用 90
8.1 引言 90
8.2 机器阅读理解 93
8.3 机器阅读理解基础方法 95
8.4 多粒度语义匹配的MGRC模型 96
8.4.1 多粒度语义表示 96
8.4.2 多粒度语义匹配 99
8.4.3 联合模型及其优化 103
8.5 实验 103
8.5.1 数据集 104
8.5.2 评测指标及对比方法 105
8.5.3 整体性能评测 106
8.5.4 参数分析 109
8.5.5 模块有效性验证 109
8.5.6 实例分析 113
8.6 本章小结 115
第9章 总结与展望 116
9.1 本书总结 116
9.2 未来研究方向展望 117
参考文献 119