随着信息社会的不断发展,大数据的价值已被社会全面认可,如何从大数据中挖掘有价值的知识和规律面临着巨大技术挑战。离群数据作为数据挖掘的一个重要分支,可从大数据中发现与众不同的、意义深远的特殊现象。《海量高维离群数据挖掘方法与技术》以离群数据挖掘及并行计算为研究对象,对基于距离的离群数据挖掘、基于加权k近邻的离群数据挖掘、基于子空间的离群数据挖掘以及多数据源的离群数据挖掘等各种方法和算法进行了深入研究,并在高性能集群环境下,讨论分析了各种算法的并行化过程,设计实现了相应的并行算法以及性能优化算法。
《海量高维离群数据挖掘方法与技术》可供从事大数据、数据挖掘、机器学习以及并行计算等相关领域的科研及工程人员参考,也可作为高等院校计算机、软件工程及自动化等专业的本科生与研究生的学习参考书。
伴随着信息时代的到来和互联网技术的快速发展,全球数据量的规模迎来了爆炸式的增长,预示着进入大数据时代。然而,在海量、高维数据飞速膨胀的同时,知识汲取手段的缺乏和落伍成为大数据面临的重要问题。数据挖掘是专门针对海量数据提出的一种知识发现技术,它可以被看作是信息技术的自然进化产物,实现了相关学科同应用领域的融合,能较好地适应大数据的发展。离群数据挖掘作为数据挖掘领域的一个主要研究内容,其目的是从海量原始数据集中,识别与大多数对象具有明显差异的个别对象,在信用卡欺诈、网络鲁棒性分析、入侵检测等领域得到了广泛的应用。现有的大多数离群挖掘方法主要从全局的角度识别离群数据,难以适应高维的数据集。因此,海量、高维离群数据挖掘方法的研究具有主要的意义和价值。
近年来,笔者一直从事离群数据挖掘及其应用的相关研究,在结合大数据热点和先进的并行计算平台Hadoop的基础上,开展了一系列的研究工作,本书是近年来相关成果的总结。全书分为6章,除绪论主要介绍大数据、并行计算以及数据挖掘技术的基本理论之外,其余章节编排如下。
第2章为基于距离的离群数据挖掘。本章针对基于距离度量的离群数据挖掘方法展开研究,提出了基于距离支持度的离群数据挖掘、基于分阶段模糊聚类的离群数据挖掘、基于信息熵的离群数据挖掘共3个算法,解决了离群数据挖掘效率及准确性较低的问题,并为后续章节天体光谱数据的离群挖掘奠定了技术基础,也为未知天体的识别提供了新方法。
第3章为基于加权k近邻的离群数据挖掘方法及并行化。本章针对基于近邻的离群数据挖掘方法进行深入研究,利用Z-order空间填充曲线,将高维空间数据映射到低维空间,并在低维空间上实现加权k近邻的查询。本章还提出加权k近邻的离群数据挖掘算法,并在Hadoop并行计算平台上,设计实现了相应的并行算法。
第4章为基于属性约减的子空间离群数据挖掘方法及并行化。本章是面向子空间的离群数据挖掘方法的研究,利用属性约减和稀疏子空间的思想,提出了一种局部离群数据挖掘方法。该方法首先通过分析高维数据属性之间的相关性,剪枝一些与离群检测不相关的属性和对象,达到缩小原始数据集的目的;然后采用稀疏子空间检测局部离群数据,并将粒子群优化方法用于稀疏子空间的搜索过程。在串行算法的基础上,本章还设计开发了基于MapReduce的并行算法,在适应高维数据特征的同时,解决了海量离群数据挖掘问题。
第5章为多源离群数据并行挖掘方法与性能优化。前面的章节都是基于单个数据源实施的离群数据挖掘,但随着数据获取和数据来源日益丰富,从多源数据集中检测离群,能发现更有价值的关联性知识。本章在给出三种不同类型的多源离群及其形式化描述之后,提出了多数据源中检测离群的基准算法和改进算法,并利用MapReduce的强大计算能力,提出了基于kNN-join的多源离群并行挖掘算法。本章还针对并行kNN-join操作中出现的数据倾斜现象,提出了一种新的数据划分方法——kNN-DP,有效地缓解了并行环境中负载不平衡问题。
第6章为海量高维离群数据挖掘应用。本章重点介绍离群数据挖掘技术在天体光谱、智能制造中的应用。在详细介绍需求分析的基础上,设计并实现了天体光谱离群数据挖掘系统以及冷轧辊加工工序异常检测系统,给出了这些系统的功能模块、体系结构,以及系统运行的相关界面。最后对运行结果进行了详细的分析,并对获取的离群数据做出合理解释说明。
本书的写作得到了太原科技大学人工智能实验室、计算机科学与技术学院各位老师的大力支持,特别是张继福教授、蔡江辉教授、杨海峰教授为本书提出了许多宝贵的建议,在此一并致以诚挚的感谢。
第1章 绪论
1.1 大数据及大数据挖掘
1.2 离群数据挖掘方法
1.3 集群系统与并行计算模型
第2章 基于距离的离群数据挖掘
2.1 基于距离支持度的离群数据挖掘方法
2.2 基于分阶段模糊聚类的离群数据挖掘方法
2.3 基于信息熵的离群数据挖掘方法
第3章 基于加权k近邻的离群数据挖掘方法及并行化
3.1 问题提出
3.2 基于Z-order的加权k近邻与离群数据挖掘
3.3 基于MapReduce的并行加权k近邻与离群数据挖掘
第4章 基于属性约减的子空间离群挖掘方法及并行化
4.1 基于属性相关分析的子空间离群数据挖掘
4.2 基于MapReduce的上下文离群数据并行挖掘
第5章 多源离群数据并行挖掘方法与性能优化
5.1 基于kNN-join的多源离群并行挖掘
5.2 基于MapReduce的并行kNN-join数据倾斜
第6章 海量高维离群数据挖掘应用
6.1 天体光谱离群数据挖掘系统设计与实现
6.2 冷轧辊异常加工工序检测原型系统
参考文献