数据挖掘技术,又称为数据库知识发现,是20世纪90年代在信息技术领域开始迅速发展起来的计算机技术。作者结合自己近20年从事人工智能、机器学习、数据挖掘等方面的科研工作积累与教学经验,编著此书。
本书较全面系统地介绍了数据挖掘中常用和常见的数据挖掘方法,以及文本与视频数据挖掘方法。
本书的主要内容包括:数据挖掘基本知识、数据挖掘预处理方法、决策树分类及其他分类方法、关联知识挖掘方法、各种聚类分析方法,以及文本挖掘所涉及表示、分类和聚类等方法,还包括视频挖掘所涉及的视频镜头检测、字幕提取、视频摘要和视频检索等主要分析方法。
本书作为学习、掌握和应用数据挖掘方法和技术的综合指导书,是从事数据挖掘研究与应用人员,以及希望了解数据挖掘主要方法和技术的IT技术人员的良师益友;同时也是一本可用于大学高年级或研究生相关课程的教材和参考文献。
数据挖掘技术,又称为数据库知识发现,是20世纪90年代在信息技术领域开始迅速发展起来的计算机技术。作者结合自己近20年从事人工智能、机器学习、数据挖掘等方面的科研工作积累与教学经验,编著此书。
本书较全面系统地介绍了数据挖掘中常用和常见的数据挖掘方法,以及文本与视频数据挖掘方法。
总序
前言
第1章 数据挖掘导论
1.1 数据挖掘的发展背景
1.2 数据挖掘定义
1.3 数据挖掘过程
1.4 数据挖掘功能
1.5 数据挖掘应用
1.6 数据挖掘发展
1.7 本章小结
第2章 数据预处理
2.1 数据描述
2.1.1 数据集类型
2.1.2 数据质量
2.2 数据清理
2.2.1 缺失值处理
2.2.2 噪声数据处理
2.2.3 数据清理过程
2.3 数据集成和变换
2.3.1 数据集成
2.3.2 数据变换
2.3.3 维度归约
2.4 数据归约
2.4.1 数据立方体聚集
2.4.2 属性子集选择
2.5 本章小结
第3章 分类挖掘:决策树
3.1 决策树方法
3.2 决策树深入
3.2.1 信息熵基础
3.2.2 C4.5方法
3.2.3 CART方法
3.2.4 SLIQ方法
3.2.5 SPRINT方法
3.2.6 其他决策树方法
3.3 决策树的简化
3.4 决策树的改进
3.4.1 属性选择
3.4.2 连续属性离散化
3.5 决策树的讨论
3.5.1 决策树优化问题
3.5.2 决策树优化方法
3.6 分类模型的评估
3.7 本章小结
第4章 分类挖掘
4.1 贝叶斯方法
4.1.1 贝叶斯方法概述
4.1.2 朴素贝叶斯分类
4.2 k-近邻方法
4.3 人工神经网络方法
4.4 遗传进化方法
4.5 支持向量机方法
4.5.1 SVM分类方法
4.6 粗糙集方法
4.7 集成学习方法
4.7.1 基本概念
4.7.2 Bagging
4.7.3 Boosting
4.8 本章小结
第5章 关联挖掘
5.1 关联挖掘简述
5.1.1 关联挖掘应用
5.2 关联挖掘基本方法
5.2.1 关联挖掘基本概念
5.2.2 关联挖掘问题
5.2.3 关联挖掘类型
5.2.4 关联挖掘基本方法
5.3 关联挖掘方法改进
5.3.1 Apriori算法改进
5.3.2 频繁模式增长(FP.tree)算法
5.3.3 其他改进算法
5.4 关联挖掘并行方法
5.4.1 基于候选集复制的算法
5.4.2 划分候选集的算法
5.4.3 混合策略:候选集部分复制
5.5 基于粒计算的关联挖掘
5.5.1 基本思想
5.6 本章小结
第6章 聚类挖掘
6.1 聚类挖掘简述
6.2 基于划分的聚类挖掘
6.2.1 k.means方法
6.3 基于层次的聚类挖掘
6.4 基于密度的聚类挖掘
6.5 基于网格的聚类挖掘
6.6 基于模型的聚类挖掘
6.7 高维海量数据的聚类挖掘
6.7.1 高维海量数据特点
6.7.2 高维海量数据聚类算法
6.8 基于蚁群算法的聚类挖掘
6.8.1 蚁群算法概述
6.8.2 蚁群算法特征
6.8.3 蚁群算法的研究热点
6.8.4 基于蚁穴清理行为的聚类算法
6.8.5 基于蚁群觅食行为的聚类算法
6.8.6 蚂蚁聚类算法分析
6.9 本章小结
第7章 异类挖掘
7.1 异类挖掘简述
7.1.1 基于统计的异常点检测
7.1.2 基于距离的异常点检测
7.1.3 基于偏差的异常点检测
7.1.4 基于密度的异常点检测
7.1.5 高维数据的异常点检测
7.2 基于属性的异常点检测
7.2.1 基于属性的异常点检测
7.3 时序异常点检测
7.3.1 时序异常点检测概述
7.3.2 时序异常模式挖掘
7.4 空间异常点挖掘
7.5 时空异常点挖掘
7.6 数据流异常挖掘
7.6.1 基于单调搜索空间的突变检测
7.6.2 基于分段分形模型的无参数异常检测
7.7 本章小结
第8章 文本挖掘
第9章 视频挖掘
第10章 视频分析
第1章 数据挖掘导论
数据挖掘是20世纪80年代末开始逐步发展起来的一个新的研究领域,它是多个学科和技术相结合的产物。本章将简要介绍数据挖掘的发展背景、概念定义、主要方法及应用案例等内容。
1.1 数据挖掘的发展背景
随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们利用信息技术生产和搜集数据的能力大幅度提高,无数个数据库被用于商业管理、政府办公、科学研究和工程开发等领域,超级市场中的交易数据、加油站里的汽油销售数据、旅行社的旅游信息等等,均构成了数据库系统的信息来源。近年来,数据库所管理的数据量急剧增大,人们积累的数据越来越多。例如:美国NASA的地球观测系统(EoS)每小时向地面发回约50 GB的图像数据;美国沃尔玛零售系统每天会产生约2亿条交易数据。人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。激增的数据背后隐藏着许多重要的信息,目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据富有但知