关于我们
书单推荐
新书推荐
|
数据分析与数据挖掘 读者对象:本书可作为相关专业高年级本科生和研究生的教学用书,也可作为数据分析与数据挖掘研究人员的参考用书。各种编程语言均可实现本书中的理论方法,如Python、C++和R等,还有许多软件工具可用,如SPSS等。本书配套的编程软件工具有利于将理论和技术应用于实践。
本书重点讲述统计数据分析方法和数据挖掘技术,在大数据时代和人工智能时代,数据驱动的知识抽取技术成为一项重要学习和研究内容。本书采用理论和举例相结合的方式进行数据分析和数据挖掘知识讲解,并配套《数据分析与数据挖掘建模工具》一书,便于理论和实践相结合。书中内容包括统计检验、方差分析、回归分析、关联分析、分类模型、聚类模型、离群点分析等典型的数据分析和数据挖掘方法。
姜维,男,副教授,1978年出生,汉族,博士,博士后、哈尔滨工业大学管理科学与工程系,硕士生导师。2007年哈尔滨工业大学计算机学院博士毕业,2010年哈尔滨工业大学管理科学与工程博士后。作为第1编著者出版著作5部。作为第一、第二作者发表论文50余篇。在计算机学报、自动化学报、电子学报、高技术通讯、计算机集成制造、系统工程理论与实践、系统工程与电子技术、国防科技大学学报、控制与决策等都有文章发表。发表3篇SCI国际期刊文章,20余篇EI期刊文章。目前作为负责人共完成或承担国家自然科学基金3项,已完成某军口预研基金项目,教育部博士点基金、中国博士后科学基金、中央高校基本科研专项项目,哈尔滨工业大学青年教改项目。作为第2负责人完成多项军口项目:总装备部军口重点预研项目,某预研基金项目,某军口重大专项项目,载人航天工程某项目。
目 录
第1章 数据分析与数据挖掘基础 1 1.1 数据分析与数据挖掘需求 1 1.1.1 数据分析与数据挖掘 1 1.1.2 大数据处理需求 2 1.1.3 数据分析误区与隐私问题 3 1.2 数据分析与数据挖掘的工作过程 3 1.2.1 数据分析的主要工作过程 3 1.2.2 数据收集 5 1.2.3 数据展示 6 1.3 数据的组织和数据的类型 7 1.3.1 数据的一般组织形式 7 1.3.2 数据类型 8 1.3.3 分类数据的编码 9 1.4 数据的常用描述性统计量 11 1.4.1 数据的中心趋势 11 1.4.2 数据的离散程度 12 1.4.3 数据的形态统计量 15 1.5 数据的基本描述性统计分析 18 1.5.1 数据的描述性统计 18 1.5.2 五数概括与盒图 19 1.5.3 数据的描述性统计图 20 1.6 本章小结 22 本章概念与关键词 22 练习与思考 23 第2章 数据抽样与推断检验 24 2.1 随机变量概率分布 24 2.1.1 概率分布 24 2.1.2 正态分布 26 2.1.3 二项分布与泊松分布 28 2.1.4 几何分布与超几何分布 29 2.2 抽样统计分析 31 2.2.1 抽样的相关概念 31 2.2.2 概率抽样的典型方法 33 2.2.3 非随机抽样的典型方法 34 2.3 基本抽样分布 34 2.3.1 经验分布、理论分布与抽样分布 34 2.3.2 三大抽样分布 36 2.3.3 小概率事件 38 2.4 常用的抽样分布与区间估计 40 2.4.1 常用的统计量抽样分布 40 2.4.2 置信区间与区间估计 42 2.5 常用的参数检验 45 2.5.1 假设检验一般过程 45 2.5.2 常用的参数检验统计量 47 2.6 常用的单样本非参数检验 48 2.6.1 卡方检验 48 2.6.2 二项分布检验 49 2.6.3 固定参数的超几何分布检验 49 2.6.4 游程检验 50 2.6.5 单样本K-S检验 54 2.7 本章小结 56 本章概念与关键词 57 练习与思考 57 第3章 可视化图与分组检验 59 3.1 数据的常用可视化图分析 59 3.1.1 数据的常用可视化图 59 3.1.2 基于图的可视化观测一般过程 62 3.2 均值比较和t检验 62 3.2.1 分组统计 62 3.2.2 数据标准化与Z-Score 63 3.2.3 单样本t检验 64 3.2.4 两独立样本t检验 65 3.2.5 两配对样本t检验 67 3.3 方差齐性检验 68 3.3.1 Levene方差齐性检验 68 3.3.2 基于F检验的方差齐性检验 69 3.3.3 Brown-Forsythe方差齐性检验 70 3.3.4 Bartlett’s方差齐性检验 70 3.4 两独立样本的非参数检验 71 3.4.1 Mann-Whitney U检验 71 3.4.2 两独立样本K-S检验 74 3.4.3 两独立样本游程检验 76 3.4.4 两独立样本Moses极端反应检验 77 3.4.5 两独立样本Brown-Mood中位数 检验 78 3.5 两配对样本的非参数检验 81 3.5.1 两配对样本符号检验 81 3.5.2 中位数、分位数及比例的符号 检验 82 3.5.3 两配对样本Wilcoxon符号秩 检验 83 3.5.4 Wilcoxon符号秩单样本检验 85 3.5.5 两配对样本McNemar检验 86 3.5.6 边缘齐性检验 88 3.6 多样本的非参数检验 88 3.6.1 多独立样本中位数检验 88 3.6.2 多独立样本Kruskal-Wallis检验 90 3.6.3 多独立样本Jonckheere-Terpstra 检验 91 3.6.4 多配对样本Friedman检验 94 3.6.5 多配对样本Kendall协同系数 检验 96 3.6.6 多配对样本Cochran’s Q检验 97 3.7 本章小结 98 本章概念与关键词 99 练习与思考 99 第4章 方差分析与相关性分析 102 4.1 方差分析 102 4.1.1 方差分析中的变量 102 4.1.2 单因素方差分析 103 4.1.3 单因素方差Brown-Forsythe 检验 105 4.1.4 单因素方差Welch’s t检验 106 4.1.5 无交互作用的双因素方差分析 107 4.1.6 有交互作用的双因素方差分析 109 4.2 Post Hoc检验 111 4.2.1 LSD检验 111 4.2.2 Studentized极差分布 112 4.2.3 Tukey’s Range检验 113 4.2.4 Tukey-Kramer检验 115 4.2.5 SNK检验 117 4.2.6 其他几种常用检验方法 118 4.3 连续属性数据的相关性分析 119 4.3.1 协方差的线性相关性度量 119 4.3.2 相关系数的线性相关性度量 122 4.3.3 Spearman秩相关系数 124 4.4 离散属性相关性分析 126 4.4.1 交叉列联表分析 126 4.4.2 用卡方检验进行离散相关性分析 127 4.4.3 列联表上常用的指标 128 4.4.4 Fisher’s exact检验 129 4.5 本章小结 131 本章概念与关键词 132 练习与思考 132 第5章 数据的预处理与距离分析 134 5.1 数据的预处理 134 5.1.1 数据清理 134 5.1.2 数据集成 136 5.1.3 数据变换 137 5.1.4 数据归约 137 5.2 数据的常用组织方式 138 5.2.1 数据的常用逻辑组织 138 5.2.2 数据的常用物理组织 139 5.2.3 高精度计算与矩阵计算 139 5.2.4 编程语言、软件工具 140 5.3 相似度计算与距离分析 140 5.3.1 相似度与距离的转换 140 5.3.2 闵可夫斯基距离 143 5.3.3 马氏距离 145 5.3.4 混合属性的相似度与距离 147 5.4 kNN分类模型 148 5.4.1 kNN分类模型概述 148 5.4.2 距离加权kNN分类模型 150 5.5 参数的点估计 151 5.5.1 原点矩与中心矩 151 5.5.2 矩估计法 152 5.5.3 极大似然估计法 153 5.6 本章小结 156 本章概念与关键词 156 练习与思考 156 第6章 回归分析 158 6.1 一元线性回归 158 6.1.1 一元线性回归问题描述 158 6.1.2 一元线性回归模型与求解 159 6.1.3 确认回归方程的精度 161 6.1.4 总体回归的方差分析 162 6.1.5 残差分析 164 6.1.6 回归方程参数检验 167 6.1.7 回归方程预测与控制 168 6.2 多元线性回归 170 6.2.1 多元线性回归问题描述 170 6.2.2 多元线性回归模型与求解 172 6.2.3 确认回归方程的精度 173 6.2.4 残差分析 174 6.2.5 回归方程参数检验 175 6.2.6 回归方程预测 176 6.3 常用的曲线回归 177 6.3.1 曲线回归问题 177 6.3.2 多项式回归 177 6.3.3 指数回归与对数回归 179 6.3.4 其他常见曲线回归 179 6.4 最小二乘法及其应用 179 6.4.1 最小二乘法线性拟合 179 6.4.2 伪逆矩阵求解 180 6.4.3 Moore-Pseudo逆矩阵 181 6.4.4 最小均方误差算法 182 6.4.5 非线性回归 183 6.4.6 智能优化求解技术 183 6.5 Logistic回归 184 6.5.1 Logistic回归分类与基本函数 184 6.5.2 Logistic回归系数计算 185 6.6 本章小结 186 本章概念与关键词 187 练习与思考 187 第7章 空间降维技术 189 7.1 主成分分析 189 7.1.1 主成分分析描述 189 7.1.2 基于协方差矩阵的主成分分析 190 7.1.3 基于相关系数矩阵的主成分 分析 192 7.1.4 主成分分析与因子分析的联系 193 7.1.5 主成分分析的作用 194 7.2 因子分析案例研究 196 7.2.1 研究的目的与内容 196 7.2.2 变量选取与数据来源 196 7.2.3 因子分析过程 197 7.2.4 因子回归分析 198 7.2.5 案例研究结论 199 7.3 奇异值分解 200 7.3.1 SVD的协同过滤推荐 200 7.3.2 SVD在协同过滤中的应用 203 7.3.3 SVD增量式协同过滤方法 204 7.4 主成分回归与逐步回归 205 7.4.1 多重共线性 205 7.4.2 主成分回归 207 7.4.3 逐步回归 207 7.5 本章小结 208 本章概念与关键词 208 练习与思考 209 第8章 关联规则与点对相关性 210 8.1 频繁模式与关联规则的基本 概念 210 8.1.1 频繁模式的基本概念 210 8.1.2 关联规则的基本概念 211 8.1.3 极大频繁模式与闭频繁模式 212 8.2 频繁模式挖掘 213 8.2.1 Apriori算法 213 8.2.2 垂直数据格式 214 8.2.3 基于频繁模式计算关联规则 215 8.3 频繁模式树 216 8.3.1 频繁模式树的构建 216 8.3.2 频繁模式树的递归过程 219 8.4 点对相似度的典型度量 220 8.4.1 点对关系常见度量 220 8.4.2 点对相关性度量的几种特性 222 8.5 信息熵及其应用与点对相关性 度量 224 8.5.1 信息熵 224 8.5.2 联合熵与互信息 226 8.5.3 信息增益、相对熵和交叉熵 228 8.5.4 互信息、交叉熵用于相关性 229 8.6 本章小结 230 本章概念与关键词 230 练习与思考 231 第9章 决策树 232 9.1 分类问题与模型训练 232 9.1.1 分类问题描述 232 9.1.2 分类问题举例与泛化问题 233 9.1.3 分类模型的常见评价指标 235 9.2 决策树及ID3算法 236 9.2.1 决策树概述 236 9.2.2 ID3算法 238 9.3 C4.5算法与连续属性特征分 类树 241 9.3.1 C4.5算法 241 9.3.2 连续属性的决策树构建 241 9.4 CART决策树 243 9.4.1 CART分类树 243 9.4.2 CART回归树 244 9.5 决策树剪枝 250 9.5.1 剪枝问题的提出与先剪枝技术 250 9.5.2 错误率降低剪枝法 251 9.5.3 悲观剪枝法 251 9.5.4 代价复杂度剪枝法 254 9.6 ROC曲线与AUC指标 255 9.6.1 ROC曲线描述与绘制 255 9.6.2 ROC曲线绘制与作用 257 9.6.3 AUC指标与应用 258 9.7 本章小结 259 本章概念与关键词 259 练习与思考 260 第10章 贝叶斯分类 261 10.1 连续属性贝叶斯分类器 261 10.1.1 单个连续属性贝叶斯分类 261 10.1.2 多个连续属性的最小总风险 决策 262 10.1.3 多个连续属性的最小平均误差率 决策 263 10.2 正态概率分布下的贝叶斯分 类器 264 10.2.1 分类器的判别函数表示形式 264 10.2.2 正态分布下的贝叶斯判别函数 264 10.2.3 正态分布下的贝叶斯判别举例 265 10.3 离散属性贝叶斯分类器 267 10.3.1 离散属性贝叶斯模型 267 10.3.2 朴素贝叶斯分类器 267 10.4 朴素贝叶斯文本分类和TAN贝叶斯 模型 270 10.4.1 朴素贝叶斯文本分类器 270 10.4.2 TAN贝叶斯分类模型 272 10.5 贝叶斯分类器中的参数估计与非参数 估计 276 10.5.1 贝叶斯分类器中的参数估计 276 10.5.2 非参数估计 277 10.6 本章小结 278 本章概念与关键词 279 练习与思考 279 第11章 特征空间与判别分析 280 11.1 特征空间 280 11.1.1 特征空间构造 280 11.1.2 特征空间评价 282 11.1.3 特征空间变换 284 11.1.4 证据空间 285 11.2 特征提取与特征选择 285 11.2.1 特征提取 285 11.2.2 特征选择 285 11.2.3 jiang相关系数 286 11.2.4 过滤式特征选择 288 11.2.5 封装式特征选择 288 11.2.6 嵌入式特征选择 289 11.3 极大似然判别分析 289 11.3.1 极大似然判别分析的工作过程 289 11.3.2 极大似然判别分析的应用举例 290 11.4 距离判别分析 290 11.4.1 距离与相似度的常用度量 290 11.4.2 距离判别分析的工作原理 291 11.4.3 距离判别法的检验与多总体距离 判别 293 11.4.4 两总体方差是否有相同的检验 294 11.4.5 加权的距离或相似度应用于距离判别 分析与kNN分类模型 296 11.5 Fisher判别分析 296 11.5.1 两类别的线性判别中的最佳投影 方向 296 11.5.2 两类别的线性判别过程 298 11.5.3 多重线性判别分析 299 11.5.4 Fisher判别分析应用举例 301 11.6 本章小结 303 本章概念与关键词 303 练习与思考 303 第12章 感知机与支持向量机 305 12.1 线性判别函数 305 12.1.1 线性判别函数表示 305 12.1.2 多重线性判别函数 306 12.1.3 广义线性判别函数 306 12.2 感知机分类器 307 12.2.1 M-P模型 307 12.2.2 感知机结构 308 12.2.3 感知机训练算法 309 12.2.4 感知机应用举例 312 12.3 感知机训练算法扩展 313 12.3.1 感知机的典型训练算法 313 12.3.2 感知机松弛算法 314 12.3.3 最小均方误差求解算法 314 12.3.4 Ho-kashyap求解算法 316 12.3.5 多分类扩展伪逆求解 317 12.3.6 感知机的对偶形式 318 12.4 最大间隔超平面与结构风险 319 12.4.1 最大间隔超平面 319 12.4.2 经验风险最小化与结构风险 最小化 320 12.5 支持向量机 323 12.5.1 线性可分时的支持向量机 323 12.5.2 数据不可分时的线性SVM 327 12.5.3 非线性支持向量机 332 12.5.4 支持向量机中的其他问题 336 12.6 本章小结 338 本章概念与关键词 339 练习与思考 339 第13章 人工神经网络 341 13.1 激活函数与多层感知机 341 13.1.1 常见激活函数 341 13.1.2 多层感知机结构 344 13.1.3 多层感知机设计 345 13.2 BP神经网络 347 13.2.1 BP神经网络及BP算法 347 13.2.2 BP算法训练中的注意事项 351 13.3 BP神经网络应用 355 13.3.1 二分类问题应用 355 13.3.2 多分类问题与拟合问题 359 13.4 深度学习 361 13.4.1 深度学习技术环境 361 13.4.2 卷积神经网络 363 13.4.3 卷积神经网络训练与应用 举例 368 13.4.4 循环神经网络 373 13.4.5 其他深度学习技术 376 13.5 本章小结 378 本章概念与关键词 379 练习与思考 379 第14章 集成学习 381 14.1 机器学习中的若干问题 381 14.1.1 机器学习的主要任务类型 381 14.1.2 机器学习的泛化问题 382 14.1.3 维数灾难问题 384 14.1.4 机器学习模型的优越性问题 385 14.2 统计量重抽样技术 386 14.2.1 偏差与方差 386 14.2.2 刀切法统计量估计 387 14.2.3 自助法统计量估计 388 14.3 分类器重抽样技术与组合 分类器 389 14.3.1 Bagging法 389 14.3.2 Boosting法 389 14.3.3 Bagging法与Boosting法的主要 特点 390 14.3.4 组合分类器 390 14.4 随机森林与Adaboost算法 393 14.4.1 随机森林 393 14.4.2 Adaboost算法 396 14.5 分类模型中的若干问题 397 14.5.1 用二分类器处理多分类问题 397 14.5.2 多标签分类方法 399 14.5.3 类别数据不平衡问题 400 14.5.4 单纯提高精确率与单纯提高 召回率的方法 401 14.6 本章小结 402 本章概念与关键词 403 练习与思考 403 第15章 聚类分析与离群点分析 404 15.1 聚类问题与聚类类型 404 15.1.1 聚类问题 404 15.1.2 聚类类型 405 15.2 基于划分的聚类 406 15.2.1 k-means聚类 406 15.2.2 k-medoids聚类 408 15.3 层次聚类 410 15.3.1 簇间距离的计算 410 15.3.2 层次聚类方法 410 15.4 基于密度的聚类 412 15.4.1 DBSCAN聚类 412 15.4.2 OPTICS聚类 415 15.5 基于网格的聚类与基于模型的 聚类 417 15.5.1 CLIQUE聚类 417 15.5.2 自组织神经网络聚类原理 418 15.6 离群点分析 420 15.6.1 离群点分析 420 15.6.2 离群点检测 420 15.7 本章小结 421 本章概念与关键词 422 练习与思考 422 附录A Mann-Whitney U检验的 临界表 424 附录B Wilcoxon signed-rank检验按符号秩 和的临界表 424 附录C Wilcoxon signed-rank检验按min (正号秩,负号秩)的临界表 425 附录D q分布(Studentized range distribution) 的临界表 426 附录E Dunnett双尾检验的临界表 428 附录F 相关系数R和判定系数R2的 临界表 430 附录G 鸢尾花数据集 431 参考文献 433
你还可能感兴趣
我要评论
|