知识图谱已在多个领域深耕多年,然而,现有的典型知识图谱主要是以实体及其属性和关系为研究核心,缺乏对事理逻辑这一重要人类知识的刻画。为了弥补这一不足,事理图谱应运而生,它能够揭示事件的演化规律和发展逻辑,刻画和记录人类行为活动。事理图谱是较为典型的多学科交叉领域,涉及知识工程、自然语言处理、机器学习、图数据库等多个领域。本书系统地介绍事理图谱涉及的概念和关键技术,如事理图谱概述、事理知识表示、事件抽取、事件模式的自动归纳、事件关系抽取、事件表示学习、事件泛化及事理归纳、事理知识存储和检索、基于事理图谱的认知推理与预测、基于事理图谱的问答与对话等。此外,本书还尝试将学术前沿和实战结合,让读者在掌握实际应用能力的同时对前沿技术发展有所了解。本书主要面向高年级本科生和研究生,可以作为知识图谱相关课程的教材,也可以作为对事理图谱感兴趣的读者的入门读物。
丁效,哈尔滨工业大学教授、博士生导师、社会计算与信息检索研究中心副主任。主要研究方向为人工智能、自然语言处理、事理图谱、因果推理。在TKDE、ACL、AAAI、IJCAI等人工智能领域的顶级国际期刊和会议上发表相关论文80余篇,承担国家部委项目、科技部科技创新2030—“新一代人工智能”重大项目课题、国家自然科学基金重点项目课题、面上项目、黑龙江省优青项目等多项省部级以上项目。获国家级教学成果二等奖,黑龙江省科学技术一等奖,黑龙江省科学技术二等奖,ACL 2024杰出论文奖,SemEval 2020国际语义评测“检测反事实陈述”任务第一名,入选2022年AI 2000全球人工智能最具影响力学者、华为云AI名师奖等,担任中国中文信息学会社会媒体处理专委会秘书长、黑龙江省中文信息处理重点实验室副主任等职务。刘挺,哈尔滨工业大学教授、博士生导师、副校长,国家高层次人才。工业和信息化部高新技术司“智能机器人”专家组专家、电子信息科学技术委员会信息服务组副组长,教育部人工智能科技创新专家组成员,国家人工智能产教融合创新平台负责人,认知智能与内容安全教育部重点实验室主任,中文信息处理黑龙江省重点实验室主任,中国计算机学会会士,中国中文信息学会副理事长,黑龙江省“人工智能”头雁团队带头人。曾主持国家重点研发计划项目、国家973课题、基金重点项目。获国家科技进步二等奖(排名第4)、黑龙江省科技进步一等奖(排名第1)。秦兵,哈尔滨工业大学教授、博士生导师、社会计算与信息检索研究中心主任。国家重点研发课题、国家自然科学基金重点项目负责人。科技部科技创新2030—“新一代人工智能”重大项目管理专家组专家,中国中文信息学会常务理事、语言与知识计算专委会副主任、情感计算专委会主任,黑龙江省计算机学会自然语言处理专委会主任。主持多项国家及省部级项目,获中文信息学会钱伟长中文信息处理科学技术奖一等奖、黑龙江省科学技术一等奖、黑龙江省科学技术二等奖。入选“2020年度人工智能全球女性及AI 2000最具影响力学者榜单”和“福布斯中国2020科技女性榜”,连续四年(2020-2023)入选爱思唯尔高被引学者榜单。
第1章 事理图谱概述 1
1.1 事理图谱的基本概念 1
1.1.1 事理图谱的定义 1
1.1.2 事理图谱中事件的定义和表示 2
1.1.3 事理图谱中的事件关系类型 2
1.1.4 事理图谱中的事件属性 4
1.1.5 事理图谱的形成过程 4
1.2 事理图谱与知识图谱的区别与联系 5
1.3 事理图谱的研究意义 7
1.4 国内外典型的事件相关知识库构建项目 8
1.5 事理图谱的相关技术 15
1.5.1 事理图谱的构建 15
1.5.2 事理图谱的表示学习 16
1.6 事理图谱的质量评估 16
1.6.1 人工评估 16
1.6.2 自动评估 17
1.7 事理图谱的应用价值 17
1.8 本章小结 19
参考文献 19
第2章 事理知识表示 21
2.1 知识表示 21
2.2 经典知识表示方法 23
2.2.1 一阶谓词逻辑 23
2.2.2 产生式规则 23
2.2.3 框架表示法 23
2.2.4 脚本 24
2.3 语义网中的知识表示方法 25
2.3.1 XML 26
2.3.2 RDF 28
2.3.3 RDFS 28
2.3.4 OWL 29
2.4 知识图谱的知识表示方法 31
2.4.1 知识图谱的图表示 31
2.4.2 知识图谱的分布式表示 32
2.5 事理图谱的知识表示方法 36
2.5.1 事理图谱的图表示 36
2.5.2 事理图谱的分布式表示 41
2.5.3 事理图谱中的事理知识表示方法 43
2.6 本章小结 45
参考文献 46
第3章 事件抽取 48
3.1 任务概述 48
3.1.1 任务定义 48
3.1.2 公开评测和相关语料资源 50
3.1.3 评价方法 52
3.2 限定域事件抽取 53
3.2.1 基于模式匹配的方法 53
3.2.2 基于统计机器学习的方法 57
3.2.3 基于深度学习的方法 61
3.3 开放域事件抽取 66
3.4 文档级事件抽取 69
3.5 自底向上的事件抽取系统介绍 72
3.6 本章小结 75
参考文献 75
第4章 事件模式自动归纳 79
4.1 任务概述 79
4.1.1 模板型事件模式自动归纳任务概述 80
4.1.2 叙述型事件模式自动归纳任务概述 84
4.2 事件模式自动归纳方法 87
4.2.1 模板型事件模式自动归纳方法 87
4.2.2 叙述型事件模式自动归纳方法 89
4.3 相关任务 93
4.4 本章小结 96
参考文献 96
第5章 事件关系抽取 100
5.1 事件因果关系抽取 100
5.1.1 任务语料与知识库 101
5.1.2 显式因果关系抽取 103
5.1.3 隐式因果关系抽取 106
5.2 事件时序关系抽取 107
5.2.1 任务概述 107
5.2.2 数据集简介 108
5.2.3 事件时序关系抽取方法 109
5.3 子事件关系抽取 113
5.3.1 任务概述 113
5.3.2 数据集简介 114
5.3.3 子事件关系抽取方法 114
5.4 事件共指关系抽取 117
5.4.1 任务概述 117
5.4.2 数据集简介 118
5.4.3 事件共指关系抽取方法 119
5.5 本章小结 121
参考文献 121
第6章 事件表示学习 127
6.1 任务概述 127
6.1.1 任务难点 128
6.1.2 任务评价 129
6.2 事件的离散表示 130
6.3 结构化事件的连续向量表示 132
6.3.1 事件元素的表示方法 133
6.3.2 组合事件元素获取事件表示的方法 136
6.3.3 事件连续表示的学习方法 140
6.4 基于预训练语言模型的非结构化事件向量表示方法 145
6.4.1 事件时间常识知识增强的预训练语言模型 146
6.4.2 动词语用知识增强的预训练语言模型 148
6.4.3 事件演化知识增强的预训练语言模型 149
6.5 本章小结 151
参考文献 151
第7章 事件泛化及事理归纳 154
7.1 任务概述 154
7.2 主要方法 155
7.2.1 基于统计的事件泛化方法 155
7.2.2 基于规则的事件泛化方法 162
7.2.3 基于神经网络的事件泛化方法 170
7.2.4 自然逻辑与神经网络相结合的事件泛化方法 173
7.3 本章小结 175
参考文献 175
第8章 事理知识存储和检索 177
8.1 事理图谱的存储 177
8.1.1 基于表结构的存储 177
8.1.2 基于图结构的存储 180
8.2 事理图谱的检索 182
8.2.1 常见的形式化检索语言 182
8.2.2 图检索技术 182
8.2.3 图数据库与关系数据库的特点 183
8.2.4 Cypher查询语言 185
8.3 Cypher语句实践 185
8.3.1 Neo4j的安装与使用 186
8.3.2 节点的创建与检索 188
8.3.3 节点的删除与更新 190
8.3.4 数据导入与图谱导出 192
8.3.5 Neo4j的高级功能 194
8.4 其他图数据库 194
8.5 本章小结 195
参考文献 196
第9章 基于事理图谱的认知推理 197
9.1 认知系统 198
9.2 基于知识图谱的认知推理 199
9.3 基于事理图谱的认知推理 201
9.3.1 基于事理图谱的If-Then类型事件推理 202
9.3.2 基于事理图谱的脚本类事件预测 204
9.3.3 基于事理图谱的因果事件推理 208
9.4 基于事理图谱的文本预测 215
9.5 本章小结 216
参考文献 217
第10章 基于事理图谱的应用 219
10.1 概述 220
10.2 基于事理知识的问答 221
10.2.1 任务概述 221
10.2.2 基于事理知识的问答方法 222
10.3 基于事理知识的对话 224
10.3.1 任务概述 224
10.3.2 基于事理知识的对话方法 227
10.4 基于事理知识的消费意图挖掘 235
10.4.1 任务概述 235
10.4.2 基于事理知识的消费意图挖掘方法 236
10.5 基于事理知识的股票市场预测 239
10.5.1 任务概述 239
10.5.2 基于事理知识的股票市场预测方法 240
10.6 大语言模型背景下的事理图谱应用 245
10.6.1 事理图谱如何增强大语言模型应用长尾事理知识进行推理 247
10.6.2 事理图谱如何增强开源大语言模型事理推理能力 248
10.7 本章小结 249
参考文献 250