本书凝练了作者近七年来的研究成果,融合了国家自然科学基金项目和博士后科学基金面上项目(一等)的相关研究成果。 基于设计科学、文本挖掘、信息抽取和机器学习等理论和方法,搭建了数据驱动的社交媒体中药品不良反应知识发现框架。在应用层面,从非结构化的文本数据中最终提取出潜在的(药品-不良反应)知识,首先从社会媒体平台上海量数据中过滤掉了不包含不良反应信息的不相关文本,然后从非结构化文本中提取了疾病症状等实体,最后区分了药品和提取的疾病症状等实体间的关系类型(如药品不良反应还是药品适应症)。在方法层面,针对数据非均衡、高维、不规范、标注难且成本高的特点,从特征和算法两个角度,提出了一系列改进的文本分类、实体识别和关系抽取方法。
本书在Web 2.0和Health 2.0的背景下,基于设计科学、文本挖掘、信息抽取和机器学习等理论与方法,搭建了社会媒体中药品不良反应知识发现框架;实现了特征向量的提取和多种核方法,并基于集成学习和半监督学习,构建了一系列药品不良反应关系抽取模型,识别了药品实体和症状/疾病实体间的关系类别,减少了社会媒体上数据高维特征的影响及模型对标注数据的依赖,提升了药品不良反应关系抽取模型的性能。通过本书的研究,在理论上丰富和补充了文本挖掘、集成学习和半监督学习的理论研究体系;在实践上,有助于完善药品的安全性信息,为相关部门提供决策支持,实现了数据驱动的药物警戒,是面向人民生命健康进行科技创新的重要实践。
刘婧,天津财经大学管理信息系统系教师,西北工业大学博士,长期从事数据驱动的决策支持研究,研究方向为文本挖掘和智慧医疗。主持国家自然科学基金青年项目1项,主持中国博士后科学基金面上项目(一等)1项,参与国家级及省部级研究项目3项;发表高水平学术论文10余篇,参与编写教材2部;入选天津市高校“青年后备人才支持计划”,入选天津市“131”创新型人才培养工程第三层次。
目 录
第1章 绪论001
1.1 研究背景与意义 / 001
1.2 国内外研究现状 / 003
1.2.1 社会媒体环境下药品不良反应知识发现研究 / 003
1.2.2 文本挖掘相关研究 / 007
1.2.3 研究述评 / 017
1.3 研究内容与创新点 / 018
1.3.1 研究内容 / 018
1.3.2 创新性 / 021
1.4 研究方法 / 022
第2章 药品不良反应相关文本识别023
2.1 基于层次注意力的多文档表征融合模型 / 023
2.1.1 基于深度学习的深层文本表征 / 025
2.1.2 考虑外部领域知识的特征工程 / 028
2.1.3 层次注意力机制 / 030
2.1.4 实验设置 / 032
2.1.5 实验结果与分析 / 033
2.2 基于多视图主动学习的药品不良反应相关文本识别模型 / 036
2.2.1 基于多视图主动学习的药品不良反应相关文本识别框架 / 037
2.2.2 基于多文档表征的多视图生成机制 / 039
2.2.3 样本选择策略 / 041
2.2.4 MVAL4D的伪代码 / 044
2.2.5 实验设置 / 046
2.2.6 实验结果与分析 / 048
2.3 小结 / 052
第3章 药品不良反应命名实体识别054
3.1 基于传统CRF的药品不良反应实体识别模型构建 / 054
3.1.1 条件随机场 / 054
3.1.2 特征提取 / 055
3.2 基于Bi-LSTM-CRF的药品不良反应实体识别模型构建 / 056
3.3 实验设置 / 058
3.3.1 数据集 / 058
3.3.2 实验过程 / 059
3.3.3 评价指标 / 059
3.4 实验结果与分析 / 059
3.5 小结 / 062
第4章 基于组合学习的药品不良反应关系抽取063
4.1 基于特征的药品不良反应关系抽取 / 063
4.1.1 特征提取 / 063
4.1.2 特征选择 / 069
4.1.3 实验设置 / 071
4.1.4 实验结果与分析 / 074
4.2 基于核方法的药品不良反应关系抽取 / 078
4.2.1 典型核 / 079
4.2.2 实验设置 / 086
4.2.3 实验结果与分析 / 086
4.3 基于组合学习的药品不良反应关系抽取集成框架 / 088
4.3.1 基分类器融合方法 / 088
4.3.2 实验设置 / 092
4.3.3 实验结果与分析 / 093
4.4 基于词汇语义相似度和词性分析的POS-SSDP核方法 / 096
4.4.1 对基于核的关系抽取方法进行改进的必要性 / 096
4.4.2 词汇语义相似度 / 099
4.4.3 POS-SSDP:嵌入词汇语义信息和词性分析的最短依赖路径核 / 103
4.4.4 实验设置 / 104
4.4.5 实验结果与分析 / 106
4.5 小结 / 111
第5章 基于半监督学习和集成学习的药品不良反应关系抽取112
5.1 基于半监督集成学习的药品不良反应关系抽取 / 112
5.1.1 半监督学习 / 112
5.1.2 集成学习 / 115
5.1.3 Co-Ensemble方法 / 118
5.1.4 实验设置 / 121
5.1.5 实验结果与分析 / 123
5.2 基于改进随机子空间的药品不良反应关系抽取 / 131
5.2.1 随机子空间相关工作 / 131
5.2.2 基于分层采样的随机子空间方法 / 132
5.2.3 使用的特征 / 135
5.2.4 实验设置 / 136
5.2.5 实验结果与分析 / 137
5.3 基于改进半监督学习的药品不良反应关系抽取 / 143
5.3.1 使用Lasso改进基于分歧的半监督学习 / 144
5.3.2 实验结果与分析 / 147
5.4 小结 / 150
参考文献152