《机器学习中的标记增强理论与应用研究》由东南大学计算机科学与工程学院助理研究员徐宁撰写。全书聚焦标记端多义性这一当今机器学习领域的热点问题,针对学习过程中不可避免的信息损失这一突出问题,提出了标记增强的概念,以期在不增加额外数据标注负担的前提下,挖掘训练样本中蕴含的标记重要性差异信息,将逻辑标记转化为标记分布。
《机器学习中的标记增强理论与应用研究》共六章:
第1章绪论,介绍了全书的研究背景和研究内容。
第2章标记增强研究进展,介绍了标记增强的研究进展。
第3章标记增强理论框架,构建了标记增强的理论框架。
第4章面向标记分布学习的标记增强,提出了面向标记分布学习的标记增强。
第5章标记增强在其他学习问题上的应用,将标记增强应用到其他学习问题上。
第6章总结与展望,总结现有工作,并在此基础上进行展望。
适读人群 :研究生、科研人员、从业者等
◆中国计算机领域具有重要突破或重要创新的博士研究生科研成果
◆2021年度CCF优秀博士学位论文奖
◆构建了标记增强基础理论框架
◆提出了面向标记分布学习的标记增强专用算法
◆在其他学习范式上应用了标记增强
标记端多义性是当今机器学习的热点问题。多标记学习中,每个样本都被赋予了一组标记子集来表示其多种语义信息。然而,标记强度差异现象在多义性机器学习任务中广泛存在,而既有多标记学习研究中普遍采用的相关/无关两个子集的逻辑划分法几乎完全忽视了这种现象,造成学习过程中不可避免的信息损失。针对这一突出问题,有必要用一种称为标记分布的标注结构来代替逻辑标记对示例的类别信息进行描述。标记分布通过连续的描述度来显式表达每个标记与数据对象的关联程度,很自然地解决了标记强度差异的问题,而在以标记分布标注的数据集上学习的过程就称为标记分布学习。由于描述度的标注成本更高且常常没有客观的量化标准,现实任务中大量的多义性数据仍然是以简单逻辑标记标注的,为此本书提出了标记增强这一概念。标记增强在不增加额外数据标注负担的前提下,挖掘训练样本中蕴含的标记重要性差异信息,将逻辑标记转化为标记分布。
徐宁,东南大学计算机科学与工程学院助理研究员。先后获中国科学技术大学学士学位、中国科学院大学硕士学位以及东南大学博士学位。主要从事机器学习和数据挖掘领域的研究。在ICML、NeurIPS、IEEE TPAMI、IEEE TKDE等著名国际会议和期刊发表论文20余篇。获2021年CCF优秀博士学位论文奖、2020年德国DAAD AInet奖、2021年江苏省优秀博士学位论文奖。担任Frontiers of Computer Science的预备青年编委,CCF人工智能与模式识别专业委员会执行委员,ICML、NeurIPS、ICLR、AAAI、IJCAI、ECML等著名国际会议的(高级)程序委员会委员,IEEE TPAMI、IEEE TNNLS、IEEE TMM等著名国际期刊的审稿人。
第1章 绪论
1.1 研究背景 1
1.2 标记增强简介 5
1.3 研究内容 7
1.4 组织结构 9
第2章 标记增强研究进展
2.1 引言 11
2.2 多标记学习 14
2.2.1 学习任务 14
2.2.2 学习方法 15
2.2.3 评价指标 22
2.3 标记分布学习 29
2.3.1 学习任务 31
2.3.2 学习方法 33
2.3.3 评价指标 39
2.4 标记增强 40
2.4.1 基于先验知识的标记增强 42
2.4.2 基于模糊方法的标记增强 45
2.4.3 基于图的标记增强 48
第3章 标记增强理论框架
3.1 引言 52
3.2 标记分布内在生成机制 54
3.3 标记分布质量评价 62
3.4 标记增强对分类器泛化性能的提升 66
3.5 实验结果与分析 68
3.5.1 标记分布恢复实验 68
3.5.2 消融实验 80
3.6 本章小结 85
第4章 面向标记分布学习的标记增强
4.1 引言 86
4.2 GLLE方法 87
4.2.1 优化框架 88
4.2.2 拓扑空间结构的引入 89
4.2.3 标记相关性的利用 90
4.2.4 优化策略 92
4.3 实验结果与分析 94
4.3.1 标记分布恢复实验 94
4.3.2 标记分布学习实验 103
4.3.3 标记相关性验证 107
4.4 本章小结 109
第5章 标记增强在其他学习问题上的应用
5.1 引言 111
5.2 多标记学习 112
5.2.1 LEMLL方法 113
5.2.2 实验结果与分析 118
5.3 偏标记学习 126
5.3.1 PLLE方法 128
5.3.2 实验结果与分析 132
5.4 本章小结 149
第6章 总结与展望
6.1 总结 151
6.2 下一步研究的方向 153