主要研究内容与特色: (1) 利用文本挖掘和专家经验构建机器学习关键问题分析框架,总结机器学习在医疗大数据挖掘中面临的若干关键问题。 (2) 利用简约核构建面向不完整视角问题的高效机器学习方法。 (3) 利用非对称损失函数构建面向类别不平衡问题的机器学习与深度学习方法。读者对象: 从事人工智能、机器学习、医疗大数据分析方向的学术界与工业界的相关人士。 (4)围绕不完整视角与类别不平衡这两个关键问题展开深入研究,有效提升了医学诊断的决策效率。
本书围绕医疗大数据挖掘中的热点问题,展开深入的理论与应用研究,可有效地辅助医学诊断。有助于减少专业医师的培训成本,为医学诊断提供有效的辅助工具,进而改善医疗资源分配不均的现象,并为人类的生命健康做出重要贡献。
随着计算机技术的飞速发展,医疗信息的规模性和丰富性显著增强,机器学习成为赋能医疗大数据的核心技术。但不可否认的是,基于机器学习的医疗大数据挖掘仍然面临诸多挑战。本书从实际出发,研究机器学习在医疗大数据挖掘中的问题与方法,一方面希望所研究成果丰富并完善相应领域的理论研究与方法体系,另一方面希望能在实际的医疗大数据挖掘中得到有效应用,为医学工作者提供有效的辅助诊断工具,有助于疾病的早预防、早发现、早治疗,提升临床决策的效率。大量实验证实本研究能够快速、准确地完成医疗大数据的分析任务,但这并不意味着机器学习能够取代医学专家的地位。严格来说,两者相辅相成。首先,在数据的准备阶段,需要依赖专家的经验对数据进行标注;其次,在模型的构建阶段,融入专家的经验知识有望取得比现有方法更优的性能;最后,在决策阶段,模型得到的预测结果需要经过专家的解释和认可才能用于临床实践。
本书具体内容设置如下:首先提出一个结合文本挖掘与专家经验的机器学习问题分析框架,利用该框架详细分析并讨论医疗大数据挖掘的研究现状,总结机器学习在医疗大数据中面临的关键问题,然后对这些机器学习问题和相应的机器学习方法进行描述,并针对多视角学习和类别不平衡学习深入研究。
在此基础之上,未来的研究可从以下几个方面展开。
(1)优化算法角度:本书使用的数据体量有限,随着医疗数据维度和规模的爆炸式增长,设计针对高维以及大规模问题的有效求解算法具有迫切的现实意义。
(2)模型推广角度:本书面向分类任务构建模型,未来可考虑将任务推广至回归或聚类任务中。另外,可将模型与其他学习范式结合,如多标签学习、多示例学习、偏标记学习等,旨在提升模型解决复杂问题的能力。
(3)拓广应用角度:本书主要为机器学习在医疗大数据挖掘中面临的不完整视角问题与类别不平衡问题提供解决方案。事实上,该领域还存在诸多亟待解决的问题,如数据标注问题、隐私问题等。根据这些问题的特性设计不同的模型和算法将有助于完善机器学习在医疗大数据挖掘中的理论与应用。
(4)法律监管角度:机器学习作为人工智能的核心技术,是目前各行各业最炙手可热的赛道,医疗领域自然也不例外。但由于医疗数据与人类生命健康密切相关,任何技术的误用或滥用都可能导致无法挽回的损失。基于此,明确并制定机器学习在医疗大数据挖掘中的法律规范、责任归属以及操作标准将成为该领域长足发展的必要条件。
本书可作为机器学习领域研究生的扩充阅读资料,也可供医疗大数据领域正在进行理论研究和应用研究的读者参考。本书得到北京邮电大学经济管理学院、中国科学院大学经济与管理学院、中国科学院虚拟经济与数据科学研究中心、中国科学院大数据挖掘与知识管理重点实验室等单位的支持,以及国家自然科学基金(项目编号:12071458,71901179)及北京邮电大学中央高校基本科研业务专项基金(项目编号:2023RC10)的资助,在此一并感谢!
由于著者水平有限,书中难免有不妥之处,恳请读者批评指正。
著 者
2023年6月
付赛际,北京邮电大学讲师。研究方向:医疗大数据挖掘、机器学习与最优化。近年来在Information Sciences, Knowledge-Based Systems, Information Processing & Management发表论文10余篇。现任Annals of Data Science编委。参加国家自然科学基金面上项目、重点项目若干项。
第1章 医疗大数据挖掘 1
1.1?医疗大数据 1
1.2 医疗大数据文献分析 4
1.2.1 数据准备 4
1.2.2 文本挖掘 5
1.2.3 专家经验 5
1.3 挖掘现状与关键问题 10
1.3.1 医学图像分类 10
1.3.2 医学图像检测 17
1.3.3 医学图像分割 20
1.3.4 医学图像生成 23
1.3.5 关键问题 25
第2章 机器学习问题 28
2.1 二分类问题 28
2.2 多分类问题 29
2.3 多标签分类问题 30
2.4 多视角分类问题 31
2.5 多示例分类问题 31
2.6 多任务分类问题 33
2.7 迁移学习问题 34
2.8 弱监督分类问题 34
2.9 数据生成问题 35
第3章 机器学习方法 37
3.1 传统机器学习方法 37
3.1.1 k近邻 37
3.1.2 朴素贝叶斯 38
3.1.3 决策树 40
3.1.4 随机森林 41
3.1.5 自适应增强 41
3.1.6 支持向量机 42
3.2 深度学习方法 44
3.2.1 CNN 44
3.2.2 RNN 46
3.2.3 GAN 46
第4章 多视角学习 48
4.1 多视角学习方法 48
4.1.1 基于完整视角的学习方法 48
4.1.2 基于不完整视角的学习方法 50
4.2 基础模型 53
4.2.1 RSVM 53
4.2.2 PSVM-2V 54
4.3 RPSVM-2V 55
4.4 理论分析 58
4.5 拓展模型 60
4.5.1 RSVM-2K 60
4.5.2 RMKL 62
4.6 实验分析 64
4.6.1 实验设置 64
4.6.2 实验结果 65
4.6.3 参数敏感性分析 71
4.6.4 谱分析 74
第5章 类别不平衡学习(一) 77
5.1 类别不平衡学习方法 77
5.1.1 采样 77
5.1.2 代价敏感学习 78
5.1.3 集成学习 79
5.2 DEC 81
5.3 修正Stein损失函数 81
5.4 CSMS 83
5.5 理论分析 86
5.6 模型优化 86
5.7 实验分析 88
5.7.1 实验设置 88
5.7.2 实验结果 89
5.7.3 参数敏感性分析 93
5.7.4 收敛性分析 93
第6章 类别不平衡学习(二) 98
6.1 v-SVM 98
6.2 LINEX损失函数 99
6.3 v-CSSVM 99
6.4 理论分析 101
6.5 模型优化 102
6.5.1 ADMM 102
6.5.2 GD 104
6.6 实验分析 105
6.6.1 实验设置 105
6.6.2 实验结果 106
6.6.3 参数敏感性分析 109
6.6.4 收敛性分析 110
第7章 类别不平衡学习(三) 113
7.1 深度学习中的类别不平衡损失函数 113
7.1.1 WCE 114
7.1.2 FL 114
7.1.3 其他 115
7.2 深度LINEX损失函数 116
7.2.1 BC-LINEX 116
7.2.2 MC-LINEX 117
7.2.3 损失函数比较 119
7.3 模型优化 120
7.3.1 BC-LINEX权重更新 120
7.3.2 MC-LINEX权重更新 121
7.4 实验分析 122
7.4.1 实验设置 122
7.4.2 实验结果 125
7.4.3 参数敏感性分析 130
附录A 132
A.1 定理4.1证明 132
A.2 定理4.2证明 132
A.3 第4章附表 135
附录B 148
B.1 第5章附表 148
附录C 150
C.1 定理6.1证明 150
C.2 第6章附表 152
参考文献 155