本书基于我国深入实施网络强国和国家大数据战略的大背景,将“大语言模型”“知识图谱”“数据治理”相结合,阐述了大模型、知识图谱在智能数据治理中的应用实践,并以医疗、政务及降碳等行业为例,详细介绍了其数据治理流程及平台构建方法。书中首先阐述了大模型时代知识图谱和智能数据治理之间的协同关系,以儿童孤独症为例介绍了基于CiteSpace软件的医疗知识图谱的构建流程;其次详细阐述了基于神经网络模型的个人健康管理知识图谱的构建方法;最后介绍了主动式政务服务和降碳领域的智能数据治理平台的设计与实现,并在每一部分都介绍了大模型技术在各行业领域的应用实践。本书将理论与实践相结合,能更好地服务于我国经济社会发展和人民生活改善,可供信息管理及大数据领域的本科生、研究生、科研人员,以及各行业信息化和数据治理部门的专业技术人员参考。
沈睿芳,首都经济贸易大学管理工程学院讲师,管理科学与工程专业博士,清华大学控制科学与工程专业博士后。近年来一直从事多学科领域的信息管理与大数据治理领域的教学及科研工作,并开展了多学科交叉领域的复杂系统建模与仿真、智能决策系统、网络的生成与演化机制、知识图谱与知识服务等方面的研究工作。近年来在国内外学术期刊及国际会议发表20余篇学术论文。作为主持或主要负责人参与多项国家科技支撑计划、国家自然科学基金和企业横向课题、北京市自然科学基金、北京市教委计划项目、河北省科技厅等科研项目。
目录
第1章 数据治理 //1
1.1 数据治理概述 //1
1.1.1 数据治理概念 //1
1.1.2 数据治理要素 //2
1.2 数据治理模型 //3
1.2.1 DGI数据治理框架 //4
1.2.2 HESA数据治理模型 //6
1.2.3 渐进式数据治理模型 //7
1.3 智能数据治理 //8
1.3.1 传统数据治理与智能数据治理 //8
1.3.2 数据驱动概述 //8
1.3.3 智能数据治理解决方案 //9
1.4 数据架构与智能数据治理架构 //10
1.4.1 企业架构与数据架构 //10
1.4.2 智能数据治理架构 //14
第2章 知识图谱 //16
2.1 知识图谱概述 //16
2.1.1 知识图谱的演进 //16
2.1.2 知识图谱的体系架构 //17
2.2 知识的存储 //18
2.2.1 知识表示框架及查询语言 //18
2.2.2 基于表结构的存储方案 //20
2.2.3 基于图结构的存储方案 //22
2.3 知识表示 //24
2.3.1 一阶谓词逻辑 //24
2.3.2 产生式系统 //25
2.3.3 框架表示法 //25
2.3.4 语义网络表示法 //27
2.4 知识抽取 //28
2.4.1 实体抽取 //28
2.4.2 关系抽取 //31
2.4.3 事件抽取 //34
2.5 知识融合 //36
2.6 知识推理 //37
2.6.1 基于逻辑规则的推理 //38
2.6.2 基于图结构的推理 //38
2.6.3 基于分布式表示的推理 //39
2.6.4 基于神经网络的推理 //39
2.6.5 混合推理 //40
2.7 知识挖掘 //41
2.7.1 知识内容挖掘:实体链接 //41
2.7.2 知识结构挖掘:规则链接 //44
第3章 大模型时代的知识图谱和智能数据治理 //47
3.1 知识图谱与人工智能 //47
3.1.1 知识图谱是人工智能的基石 //47
3.1.2 知识图谱推动智能应用 //48
3.1.3 知识图谱是人工智能发展的核心驱动之一 //48
3.2 知识图谱与数据治理 //48
3.2.1 良好的数据治理是构建组织知识图谱的基石 //48
3.2.2 知识图谱助力智能数据治理 //49
3.2.3 基于知识图谱的智能数据治理架构 //50
3.3 大模型时代的知识图谱和数据治理 //51
3.3.1 大模型概述 //51
3.3.2 大模型中的关键技术 //52
3.3.3 大模型的优势及特点 //54
3.3.4 常见的大模型 //55
3.3.5 基于大模型的智能系统架构 //57
3.4 大模型时代的知识图谱 //59
3.4.1 知识图谱和大模型面临的现实困境和融合机遇 //59
3.4.2 知识图谱和大模型融合应用的三种主流模式 //64
3.4.3 大模型和知识图谱 //67
3.4.4 大模型与知识图谱的协同技术 //68
3.4.5 基于大模型的智能知识图谱架构 //69
3.5 大模型时代的智能数据治理 //74
3.5.1 传统的数据治理技术 //75
3.5.2 数据治理为大模型奠定基础 //78
3.5.3 大模型在数据治理中的应用 //78
3.5.4 面向大模型的数据治理框架 //81
3.5.5 基于大模型的智能数据治理 //83
3.6 基于领域知识图谱的数据治理架构 //84
3.6.1 医疗领域的智能数据治理 //84
3.6.2 政务领域的智能数据治理 //85
3.6.3 低碳领域的智能数据治理 //86
3.6.4 基于知识图谱的智能知识服务 //86
第4章 医疗领域科学知识图谱绘制 //88
4.1 科学知识图谱概述 //89
4.1.1 知识图谱分析方法 //89
4.1.2 知识图谱绘制工具 //90
4.2 CiteSpace概述 //91
4.2.1 软件主界面 //91
4.2.2 合作网络分析 //92
4.2.3 中文CNKI数据的分析实践 //97
4.3 医疗知识图谱构建 //101
4.4 儿童孤独症知识图谱分析 //103
4.4.1 儿童孤独症学科共引分析 //103
4.4.2 儿童孤独症知识基础知识图谱分析 //105
4.4.3 儿童孤独症研究领域的核心期刊 //107
4.4.4 儿童孤独症研究机构分析 //109
4.4.5 基于CiteSpace的儿童孤独症知识库关键知识点分析 //111
第5章 数据驱动的儿童孤独症主动知识服务模型构建 //121
5.1 儿童孤独症筛查与干预平台构建 //121
5.1.1 建立基于众包模式的孤独症患儿信息库及知识库 //122
5.1.2 建立儿童孤独症知识服务个性化推荐模型 //124
5.2 区域儿童孤独症筛查与干预数据治理实施架构 //125
5.3 知识库本体构建及知识爬取方法概述 //127
5.3.1 本体构建方法 //127
5.3.2 知识爬取方法 //130
5.4 孤独症本体构建 //131
5.4.1 孤独症本体框架 //131
5.4.2 孤独症本体构建 //133
5.5 基于Heritrix和HTMLParser的孤独症知识文本提取 //136
5.5.1 爬虫解析过程 //137
5.5.2 算法优化 //139
5.6 孤独症疾病领域知识库结构 //140
第6章 个人健康信息知识图谱构建 //143
6.1 电子病历概述 //143
6.1.1 电子病历文本类型 //143
6.1.2 电子病历实体分类 //143
6.1.3 电子病历实体关系分类 //144
6.2 模型与方法 //145
6.2.1 基于转换器的双向编码器表示 //145
6.2.2 条件随机场 //146
6.2.3 长短期记忆网络 //147
6.2.4 注意力机制模型 //149
6.2.5 CNN //150
6.3 电子病历命名实体识别 //150
6.3.1 BiLSTM-CRF模型原理 //150
6.3.2 BiLSTM-CRF模型的构建 //152
6.3.3 电子病历实体数据预处理 //153
6.3.4 结果分析 //155
6.4 电子病历关系抽取 //156
6.4.1 CNN构建 //156
6.4.2 电子病历关系数据预处理 //157
6.4.3 结果分析 //158
6.5 电子病历关系抽取 //160
6.5.1 Neo4j图数据库 //160
6.5.2 Neo4j图数据库存储 //160
6.6 大模型在健康管理领域的应用 //164
6.6.1 国内外典型医疗大模型 //165
6.6.2 医学临床数据治理 //166
6.6.3 智能病理诊断 //168
6.6.4 疾病风险预测与医疗资源管理 //169
6.6.5 大模型助力医院构建智慧医护体系 //170
第7章 政务服务数据治理平台构建 //173
7.1 主动式政务服务需求 //173
7.1.1 主动式政务服务 //173
7.1.2 个性化政务服务 //174
7.1.3 移动政务服务 //174
7.2 主动式政务服务数据治理平台构建 //174
7.2.1 多源数据整合 //175
7.2.2 政务服务云平台总体架构 //176
7.3 模式创新 //177
7.3.1 主动式政务服务模式创新 //177
7.3.2 管理模式创新 //179
7.4 主动式政务服务云平台构建案例 //182
7.4.1 基于“三单管理”的标准化审批服务 //182
7.4.2 基于“网格化”的智慧城市治理新模式 //183
7.5 大模型在智慧政务领域的应用 //183
7.5.1 智能政务服务 //184
7.5.2 城市智能化治理 //185
7.5.3 应用大模型技术打造政府网站智能问答服务 //187
第8章 低碳领域的数据治理 //192
8.1 低碳领域数据构成 //192
8.1.1 能源消耗类数据 //192
8.1.2 碳源类数据 //194
8.1.3 碳汇类数据 //195
8.2 知识图谱和区块链应用策略 //195
8.2.1 知识图谱和区块链技术概述 //195
8.2.2 知识图谱在低碳数据治理中的应用策略 //196
8.2.3 区块链在低碳数据治理中的应用策略 //197
8.3 数据治理平台需求 //198
8.3.1 问题分析 //198
8.3.2 业务性需求 //199
8.3.3 功能性需求 //200
8.3.4 低碳数据治理系统软硬件配置要求 //201
8.3.5 低碳数据治理系统性能需求 //201
8.4 低碳数据治理系统的设计与实现 //203
8.4.1 总体框架设计 //203
8.4.2 数据库设计 //205
8.4.3 各功能模块设计与实现 //213
8.5 低碳数据治理系统构建示例 //222
8.5.1 应用效果 //222
8.5.2 小结 //228
8.6 大模型在低碳数据治理领域的应用 //228
8.6.1 绿色电力系统优化 //228
8.6.2 智慧农业生产作业 //229
8.6.3 有色冶金能源管理 //230
8.6.4 新能源汽车智能制造 //230
8.6.5 智能建造设计装配 //231
8.6.6 大模型助力建筑行业智能化转型升级 //232
参考文献 //234