《单图及群图挖掘:原理、算法与应用》由DanaiKoutra和全球知名的数据挖掘领域奠基人之一ChristosFaloutsos教授合著,介绍了图挖掘领域一个崭新的研究方向。《单图及群图挖掘:原理、算法与应用》内容主要包括两个部分:第壹部分介绍了单图上的概要表示以及节点标签分类算法;第二部分介绍了群图上的概要表示以及群图的相似性度量和节点对齐算法。
图是信息表达的载体,从网页之间的连接到电子邮件网络中的通信关系,再到大脑神经元之间的连接都可以用图表示。这些图通常具有数十亿个节点及它们之间的交互关系。在这些相互关联的数据中,如何找到最重要的结构并对其进行归纳总结?如何更有效地将它们可视化?如何检测预示着重大事件的异常情况(例如对计算机系统的一次攻击、人脑中疾病的形成或公司的衰落)?本书将呈现一类可扩展、具有理论基础的发现算法,它将全局和局部信息结合起来,以帮助人们理解一个或多个图。除给出高效的系统性方法论,本书还针对两个主要方向提供图理论的思想和模型及现实世界中的实际应用: 单图挖掘(Individual Graph Mining):本部分主要展示如何通过识别图的重要结构,可解释性地抽取单个图的概要信息。除了通过概要信息对图加以解释,本部分还进一步使用推理技术,即利用少数实体(通过概要信息抽取技术或其他方法获得)及其网络结构快速、有效地学习未知实体信息。 群图挖掘(Collective Graph Mining):本部分将单图概要信息抽取的概念推广到时序演化图中,并展示了如何发现其中的时序模式。除抽取概要信息,度量两个图的相似性在很多应用中都是需要解决的前置性问题(例如时序异常检测、行为模式发现等)。此外,本部分还提出了一系列可扩展、具有理论背景的算法,以实现多个图之间的对齐和相似性度量。本书呈现的方法利用了来自不同领域的技术,如矩阵代数、图论、最优化、信息论、机器学习、金融和社会科学,来解决现实世界的问题。本书把提出的探索性算法应用到海量数据集中,其中包括具有66亿条边的互联网图、具有18亿条边的Twitter图、多达9千万条边的脑连接图,以及合作网络、点对点网络、浏览日志网络等,它们都包含数百万用户和他们之间的交互关系。关键词数据挖掘图挖掘及探索图相似性图匹配网络对齐图概要模式挖掘离群点检测异常检测可扩展性快速算法模型可视化社交网络脑连接网络
译者序
原书前言
原书致谢
作者简介
第1章绪论1
11概述1
12本书的架构1
121第一部分:单图挖掘1
122第二部分:群图挖掘2
123源代码和支撑材料3
13预备知识3
131图的基本定义4
132图的数据结构5
133线性代数基本概念6
134图的主要特性7
14常用符号8
第一部分单图挖掘
第2章静态图概要抽取11
21概述与动机12
22问题描述13
221图概要抽取的MDL准则14
222模型编码15
223误差编码17
23VoG:基于词汇表的图概要抽取17
231子图生成18
232子图标记18
233概要组装19
234示例20
235计算复杂度20
24实证结果21
241定量分析22
242定性分析25
243可扩展性30
25讨论31
26相关工作33
目录第3章图的推理35
31关联推断技术35
311RWR36
312SSL36
313BP37
314本节小结38
32FABP39
321推导41
322收敛性分析45
323算法46
33扩展到多个类47
34实证结果49
341准确度49
342收敛性50
343鲁棒性51
344可扩展性51
第二部分群图挖掘
第4章动态图概要抽取55
41问题描述56
411动态图概要抽取的MDL准则58
412编码模型58
413误差编码60
42TIMECRUNCH:基于词汇表的动态图概要抽取61
421生成候选静态结构61
422标注候选静态结构61
423组装候选时序结构62
424概要合成63
43实证结果64
431定量分析65
432定性分析66
433可扩展性68
44相关工作68
第5章图的相似性70
51直觉71
511概述71
512节点亲和度测量71
513信念传播的应用72
514相似性度量的预期性质73
52DELTACON:连通性动态检测73
521算法描述74
522快速计算74
523预期性质77
53DELTACON-ATTR:节点和边的归因82
531算法描述82
532可扩展性84
54实证结果84
541DELTACON与直觉的一致性84
542DELTACON-ATTR与直觉的一致性90
543可扩展性94
544鲁棒性94
55应用96
551Enron数据集实证分析97
552大脑连通图聚类98
553恢复连接组的对应关系99
56相关工作101
第6章图的对齐104
61问题的形式化描述105
62BIG-ALIGN:二分图的对齐106
621数学形式化表示106
622具体问题的优化108
623算法描述112
63UNI-ALIGN:二分图对齐算法在单分图上的推广113
64实证结果114
641BIG-ALIGN的准确度和运行时间115
642UNI-ALIGN的准确度和运行时间118
65讨论119
66相关工作119
第7章结论与进一步的研究问题121
参考文献123