关于我们
书单推荐
新书推荐
|
数据挖掘与预测分析(第2版)
通过做数据分析学习数据分析
《数据挖掘与预测分析(第2版)》提供了从数据准备到探索性数据分析、数据建模及模型评估等整个数据分析过程的内容。《数据挖掘与预测分析(第2版)》不仅提供了理解软件底层算法的白盒方法,而且提供了能够使读者利用现实世界数据集开展数据挖掘与预测分析的应用方法。
第2版的新内容:
● 添加了500多页的新内容,包括20个新章节,例如,数据建模准备、成本-效益分析、缺失数据填充、聚类优劣度量以及细分模型等。
● 针对前沿主题的新章节,例如,多元分类模型、BIRCH聚类、集成学习(bagging及boosting)、模型投票与趋向平均等。
● 每章节后均附有R语言开发园地,读者可以获得完成书中分析所需的R语言源代码,以及通过R代码生成的图、表和结果。
● 书中的附录为那些对统计基础生疏的读者提供了了解基本概念的材料。
● 超过750个章节练习,使读者能够自己测试对所学知识的掌握程度,并着手开展数据挖掘与预测分析工作。
《数据挖掘与预测分析(第2版)》将对数据分析人员、数据库分析人员以及CIO具有极大的吸引力,通过学习将使他们知道何种类型的分析将会增加其投资回报。
本书提出的方法和技术全面、深入,几乎涵盖了当前应用中常见的各类挖掘与分析方法。对方法的介绍从概念、算法、评价等部分着手,深入浅出地加以介绍。在介绍方法的章节中增加了R语言开发园地,帮助读者利用R语言开展实际设计和开发工作,获得章节中涉及内容的结果,便于读者掌握所学内容。
序言
什么是数据挖掘?什么是预测分析数据挖掘是从大型数据集合中发现有用的模式和趋势的过程。预测分析是从大型数据集合中抽取信息以便对未来的情况做出预测和估计的过程。由Daniel Larose 和 Chantal Larose合著的《数据挖掘与预测分析(第2版)》一书能够确保读者成为这一前沿且大有前途的领域的专家。为什么需要本书根据MarketsandMarkets研究公司的调查,从2013年~2018年,全球大数据市场有望以每年26%的速度增长,将从2013年的148.7亿美元增加到2018年的463.4亿美元 。世界范围内的公司和团体正在学习如何应用数据挖掘和预测分析以增加利润。尚未应用数据挖掘和预测分析的公司将会在21世纪经济的全球竞争中落伍。在大多数领域中,人类都被数据所淹没。遗憾的是,这些花费庞大成本收集得到的数据多数都被遗弃在数据仓库中。问题是,缺乏足够的、受过良好训练的、具备将这些数据转换为人类需要的知识并就此将分类树转换为智慧的分析人员。这也是编写本书的目的所在。McKinsey Global Institute报告指出 :公司在利用大数据的技能需求方面将会存在人才短缺现象。从大数据中获取价值的制约主要体现在缺乏必要的人才,特别是缺乏那些掌握统计和机器学习专门知识的人才,缺乏能够使用从大数据中获取的见识来运营公司的管理人员和分析人员。我们认为对大数据世界开展分析工作的职位比目前能够提供的缺少大约140 000~190 000个。此外,我们认为在美国额外还将需要150万位能够提出正确问题并能够有效利用大数据分析结果的管理和分析人员。本书试图帮助解决数据分析人员短缺的问题。数据挖掘得到越来越广泛的应用,因为它有助于增强公司从其已有的数据集合中发现有利的模式和趋势的能力。公司和团体花费了大量的金钱,收集到海量的数据,但是未能很好地利用隐藏在其数据仓库中的有价值的和可操作的信息。然而,随着数据挖掘实践变得越来越广泛,无法应用这些技术的公司将存在落后于市场的危险,将逐渐失去市场份额,因为他们的竞争对手都在使用数据挖掘,从而赢得竞争优势。谁将从本书获益《数据挖掘和预测分析(第2版)》一书通过逐步动手解决现实世界的现实问题,介绍了当前广泛运用于现实世界数据集合中的数据挖掘技术,这一方式将吸引管理人员、首席信息官、首席执行官、首席财务官、数据分析人员、数据库分析人员以及其他需要了解最新方法以提高投资回报率的群体的注意。利用《数据挖掘与预测分析(第2版)》,你将学习什么类型的分析能够从数据中发现最有益的知识,同时避免进入可能会导致公司投入大量资金而不能带来相应利益的误区。你将通过真正实践数据挖掘和预测分析来学习数据挖掘和预测分析。危险!数据挖掘容易被搞砸能够开展数据挖掘工作的新的现有软件平台不断涌现,这将带来新的危险。这些应用处理数据非常方便,强大的数据挖掘算法以黑盒方式嵌入到软件中,导致滥用情况出现的比例更高,从而带来巨大的危险。简言之,数据挖掘工作不容易做好。将强大的模型应用于海量数据时,一知半解特别危险。例如,对未经过预处理的数据开展分析工作可能会得出错误的结论,或者对数据集采用不适当的分析方法,又或者模型构建基于完全不正确或似是而非的假设之上。如果进行了部署,分析中存在的这些错误可能会让你付出昂贵的代价。《数据挖掘与预测分析(第2版)》一书有助于使你成为一名能够避免进入这些昂贵陷阱的精明的分析人员。白盒方法了解基本算法和模型结构数据挖掘和预测分析出现问题的症结在于盲目采用黑盒方法,避免代价昂贵错误的最佳方法是转而采用白盒方法,白盒方法强调要求对软件中基本算法和统计模型结构的了解。《数据挖掘与预测分析(第2版)》通过如下方式应用白盒方法:● 明确地揭示为什么需要运用某一特定方法或算法。● 让读者了解某个算法或方法是如何工作的,采用实例(小型数据集)解释,以便读者逐步了解其中的逻辑关系,从而以白盒方法了解方法或算法的内部工作模式。● 提供将方法应用于大型、现实世界数据集的实例。● 通过练习测试读者对概念和算法的理解程度。● 为读者提供将数据挖掘应用于大型数据集的经验。算法概览《数据挖掘与预测分析(第2版)》将利用小型数据集,指引读者学习各种算法的操作和细微差异,让读者真正理解算法的内部工作情况。例如,在第21章中,我们将逐步利用小型数据库,应用BIRCH聚类算法(BIRCH是层次聚类的一种方法)学习平衡迭代消减和聚类,精确地展示BIRCH如何针对数据集选择优化的聚类解决方法。正如我们所知,此类演示是本书针对BIRCH算法的独特方法。同样,在第27章中,我们将通过使用选择、交叉和变异操作算子,针对小型数据集逐步发现优化解决方案,以便读者能够更好地理解所涉及的过程。将算法和模型应用到大型数据库《数据挖掘与预测分析(第2版)》提供了大量将数据分析方法应用于大型数据库的示例。例如,第9章通过利用实际数据库,解析营养等级与谷物含量之间的关系。在第4章中,我们将主成分分析应用于实际的加利福尼亚州的人口普查数据中。所有数据集均可从本书网站www.dataminingconsultant.com中获得。章节练习:检查并确认读者是否了解了本章内容《数据挖掘与预测分析(第2版)》一书的各章中包含大约750个练习,有助于读者了解自己对各章提供材料的理解程度,并从中体验与数字和数据打交道的乐趣。这些练习包含概念辨析类型的练习,可帮助读者进一步梳理清楚数据挖掘中某些更具有挑战性的概念;利用数据开展工作的练习,帮助读者将特定数据挖掘算法应用到小型数据集中,从而能够逐步实现较好的解决方案。例如,在第14章中,我们要求读者通过该章提供的数据集获得最大后验分类。动手实践:通过实际编写数据挖掘算法学习数据挖掘本书大多数章节为读者提供了动手实践分析问题,为读者提供了运用新学的数据挖掘专业知识,解决大型数据集实际问题的方法。许多人都喜欢边学边做,而《数据挖掘与预测分析(第2版)》为读者提供了一个边学边做的框架。例如,在第13章中,读者将采用实际的信用卡审批分类数据集,构建自己的最佳logistic回归模型,尽可能利用从该章中学习到的方法,提供对模型强大的、可解释的支持,包括对获取的变量及标识变量的解释。令人兴奋的新主题《数据挖掘与预测分析(第2版)》一书还提供大量令人兴奋的新主题,主要包括:● 通过利用数据驱动的误分类开销实现成本-效益分析● 独立或多元分类模型的成本-效益分析● 分类模型的图形化评估方法● BIRCH聚类● 分段模型● 集成方法:bagging和boosting方法● 模型投票与趋向平均● 缺失数据的填补方法R语言开发园地R语言是一种探索及分析数据集的功能强大的开源语言。使用R语言的分析人员可以利用大量免费的程序包、例程和图形用户界面来解决大多数数据分析问题。本书大多数章节中都为读者提供R语言开发园地,用R语言获得章节中涉及内容的结果,以及部分输出的截图。附录:数据汇总与可视化一些读者可能不大容易理解某些统计和图形化概念,这些概念通常会在统计课程中学习。《数据挖掘与预测分析(第2版)》一书提供了介绍常见概念和术语的附录,为读者更好地理解本书的相关材料奠定基础。案例研究:分析方法汇总《数据挖掘与预测分析(第2版)》最后提供了详细的案例研究。通过对案例的研究,读者能够了解怎样将自己从书中学习到的方法融会贯通,以建立可操作的、有益的解决方案。详细的案例研究包括在以下4章中:● 第29章 案例研究,第1部分:业务理解、数据预处理和探索性数据分析。● 第30章 案例研究,第2部分:聚类与主成分分析。● 第31章 案例研究,第3部分:建模与评估性能和可解释性。● 第32章 案例研究,第4部分:高性能建模与评估案例研究中包含大量图形、探索数据分析、预测模型、客户分析,并提供针对不同用户需求的解决方案。采用定制的数据驱动成本效益表的模型评估方法,反映分类误差的真正开销,而不是采用常见的诸如总体误差率等评估方法。因此,分析人员能够使用每位客户接触的开销对模型进行比较工作,给予接触客户的数量,预测模型能够实现多少利润。本书组织结构《数据挖掘与预测分析(第2版)》一书的组织结构有助于读者直接发现相关的逻辑。共设32章,包含8个主要部分:● 第Ⅰ部分是数据准备,包含有关数据预处理、探索性数据分析、降维方法等章节。● 第Ⅱ部分是统计分析,提供开展数据分析工作常见的经典统计方法,包括单变量统计分析及多元变量统计分析、简单及多元线性回归方法、为构建模型准备数据、模型构建等章节。● 第Ⅲ部分是分类,包含9章,是本书涉及内容最多的部分:其中包含k-最近邻算法、决策树、神经元网络、logistic回归、朴素贝叶斯与贝叶斯网络、模型评估技术、基于数据驱动成本的成本-效益分析、二元及k元分类模型、分类模型的图形化评估等。● 第Ⅳ部分是聚类,包含层次聚类和k-均值聚类、Kohonen网络、BIRCH聚类、度量簇的优劣等。● 第Ⅴ部分是关联规则,本部分仅包含一章内容,涵盖A Priori关联规则以及广义规则归纳。● 第Ⅵ部分是模型性能强化,提供细分模型、集成方法:bagging和boosting、模型投票与趋向平均等章节。● 第Ⅶ部分介绍针对预测建模的其他方法,包括缺失数据填补以及遗传算法等。● 第Ⅷ部分是案例研究:针对直邮市场的预测响应,包括4章,给出如何从直邮市场营销活动中获取最大利润的完整案例分析方法。软件本书使用的软件包括:● IBP SPSS Modeler数据挖掘软件套件● R开放源代码统计分析软件● SAS Enterprise Miner● SAS统计分析软件● Minitab统计分析软件● Weka开放源代码数据挖掘软件IBM SPSS Modeler是数据挖掘领域应用最广泛的数据挖掘软件套件,该软件由SPSS开发(www-01.ibm.com/software/analytics/spss/products/modeler/),本书采用了其基本软件。SAS Enterprise Miner比IBM Modeler功能更强大,但学习该软件比较困难。SPSS可以获得免费试用版(通过Google搜索spss即可下载)。Minitab是简单易用的统计软件包,可以在该公司提供的网站www.minitab.com下载试用版。Weka:开源软件Weka机器学习平台是一种基于GNU通用公共许可证发布的开源软件,它包括实现多数数据挖掘任务所需要的工具集合。《数据挖掘与预测分析(第2版)》利用Weka 3.6开发动手实践、一步一步实例教程等,该软件可从本书的相关网站www.dataminingconsultant.com获得。读者可以使用Weka执行如下类型的分析:logistic回归(见第13章)、朴素贝叶斯分类(见第14章)、贝叶斯网络分类(见第14章)、遗传算法(见第27章)。有关Weka的更多信息可参考www.cs.waikato.ac.nz/ml/weka。作者非常感谢James Steck提供了大量的Weka实例和练习。James Steck(jame_steck@comcast.net)是2005年康涅狄格州州立中央大学最早获得数据挖掘学科硕士学位的学生之一,也是最早获得研究生学术研究奖的学生。本书网站www.dataminingconsultant.com读者可以获得由Daniel Larose和Chantal Larose撰写的、Wiley InterScience出版的数据挖掘书籍相关材料。通过该网站,或扫描本书封底的二维码,可以下载本书用到的大多数数据集,方便读者动手实践开发各种本书提到的分析方法和模型。网站还包括勘误表和比较完整的数据挖掘相关资源,涉及数据集链接、数据挖掘研究组链接以及相关的研究论文等。然而,本网站真正强大的原因还在于可供讲授本书的教师使用,提供的资源包括:● 所有练习的答案,包括动手实践分析。● 各章的PPT,可方便教学工作。● 示例数据挖掘课程项目,由作者亲自编写,可以在你的课程讲授中采用。● 实际的数据集,可用于课程学习参考。● 每章所涉及的网络资源。作为教材的《数据挖掘与预测分析(第2版)》《数据挖掘与预测分析(第2版)》自然适合作为1学期或2学期课程的课本,2学期课程内容可分为数据挖掘介绍和中级数据挖掘。教师在授课时可获得如下好处:● 数据挖掘过程介绍。● 白盒方法,强调理解基本算法的结构:? 利用玩具数据集讲授算法概览。? 将算法应用于大型数据集。? 超过300幅图、275张表。? 包含750道章节练习和动手实践分析。● 大量令人兴奋的新专题,例如基于数据驱动误分类开销的成本-效益分析。● 详细的案例研究,有助于融会贯通前28章介绍的内容。● 附录:数据汇总与可视化,包含读者可能比较生疏的统计和图形方面的概念综述。● 对应Web网站,提供了上述内容详细的资源列表。《数据挖掘与预测分析(第2版)》可作为本科高年级或研究生课程内容。若先有选修统计方面的课程更好,但并非必需。读者不需要具备计算机编程经验或数据库的专门知识。
Daniel T. Larose博士,美国中康涅狄格州立大学数学科学教授,数据挖掘项目负责人。出版与数据挖掘、Web挖掘和统计理论等相关论著多本。他也是《微软》、《福布斯》杂志以及《经济学人》杂志等数据挖掘与统计分析领域的顾问。 Chantal D. Larose是美国康涅狄格大学的在读博士。其研究领域包括缺失数据填补以及基于模型的聚类等。她已获得美国新帕尔兹纽约州立大学商学院决策科学领域助理教授的职位。
第Ⅰ部分 数据准备 第1章 数据挖掘与预测分析概述 3 1.1 什么是数据挖掘和预测分析 3 1.2 需求:数据挖掘技术人员 4 1.3 数据挖掘离不开人的参与 5 1.4 跨行业数据挖掘标准过程: CRISP-DM 6 1.5 数据挖掘的谬误 8 1.6 数据挖掘能够完成的任务 9 1.6.1 描述 9 1.6.2 评估 10 1.6.3 预测 11 1.6.4 分类 11 1.6.5 聚类 13 1.6.6 关联 14 R语言开发园地 15 R参考文献 16 练习 16 第2章 数据预处理 17 2.1 需要预处理数据的原因 17 2.2 数据清理 18 2.3 处理缺失数据 19 2.4 识别错误分类 22 2.5 识别离群值的图形方法 22 2.6 中心和散布度量 24 2.7 数据变换 26 2.8 min-max规范化 26 2.9 Z-score标准化 27 2.10 小数定标规范化 28 2.11 变换为正态数据 28 2.12 识别离群值的数值方法 34 2.13 标志变量 35 2.14 将分类变量转换为数值变量 35 2.15 数值变量分箱 36 2.16 对分类变量重新划分类别 37 2.17 添加索引字段 37 2.18 删除无用变量 38 2.19 可能不应该删除的变量 38 2.20 删除重复记录 39 2.21 ID字段简述 39 R语言开发园地 39 R参考文献 45 练习 45 第3章 探索性数据分析 49 3.1 假设检验与探索性数据分析 49 3.2 了解数据集 49 3.3 探索分类变量 52 3.4 探索数值变量 58 3.5 探索多元关系 62 3.6 选择感兴趣的数据子集作进一步研究 64 3.7 使用EDA发现异常字段 64 3.8 基于预测值分级 65 3.9 派生新变量:标志变量 67 3.10 派生新变量:数值变量 69 3.11 使用EDA探测相关联的预测 变量 70 3.12 EDA概述 73 R语言开发园地 73 R参考文献 80 练习 80 第4章 降维方法 83 4.1 数据挖掘中降维的必要性 83 4.2 主成分分析 84 4.3 将主成分分析应用于房屋 数据集 87 4.4 应提取多少个主成分 91 4.4.1 特征值标准 91 4.4.2 解释变异的比例标准 92 4.4.3 最小共性标准 92 4.4.4 坡度图标准 92 4.5 主成分描述 94 4.6 共性 96 4.7 主成分验证 97 4.8 因子分析法 98 4.9 因子分析法在成年人数据集中的 应用 99 4.10 因子旋转 101 4.11 用户自定义合成 104 4.12 用户自定义合成的示例 105 R语言开发园地 106 R参考文献 110 练习 111 第Ⅱ部分 统计分析 第5章 单变量统计分析 117 5.1 数据知识发现中的数据挖掘 任务 117 5.2 用于估计和预测的统计方法 117 5.3 统计推理 118 5.4 我们对评估的确信程度如何 119 5.5 均值的置信区间估计 120 5.6 如何减少误差范围 121 5.7 比例的置信区间估计 122 5.8 均值的假设检验 123 5.9 拒绝零假设的证据力度的 评估 125 5.10 使用置信区间执行假设检验 126 5.11 比例的假设检验 127 R语言开发园地 128 R参考文献 129 练习 129 第6章 多元统计 133 6.1 描述均值差异的两样例t-检验 方法 133 6.2 判断总体差异的两样例 Z-检验 134 6.3 比例均匀性的测试 135 6.4 多元数据拟合情况的 卡方检验 137 6.5 方差分析 138 R语言开发园地 141 R参考文献 143 练习 143 第7章 数据建模准备 145 7.1 有监督学习与无监督学习 145 7.2 统计方法与数据挖掘方法 146 7.3 交叉验证 146 7.4 过度拟合 147 7.5 偏差-方差权衡 148 7.6 平衡训练数据集 150 7.7 建立基线性能 151 R语言开发园地 152 R参考文献 153 练习 153 第8章 简单线性回归 155 8.1 简单线性回归示例 155 8.2 外推的危险 161 8.3 回归有用吗?系数的确定 162 8.4 估计标准误差 166 8.5 相关系数r 167 8.6 简单线性回归的方差分析表 169 8.7 离群点、高杠杆率点与有影响 的观察点 170 8.8 回归方程概括 178 8.9 回归假设验证 179 8.10 回归推理 184 8.11 x与y之间关系的t-检验 185 8.12 回归直线斜率的置信区间 187 8.13 相关系数的置信区间 188 8.14 给定均值的置信区间 190 8.15 给定随机选择值的预测区间 191 8.16 获得线性特性的变换 194 8.17 博克斯-考克斯变换 199 R语言开发园地 199 R参考文献 205 练习 205 第9章 多元回归与模型构建 213 9.1 多元回归示例 213 9.2 总体多元回归方程 218 9.3 多元回归推理 219 9.3.1 y与xi之间关系的t-检验 219 9.3.2 营养等级与含糖量之间关系 的t-检验 220 9.3.3 营养等级与纤维含量之间 关系的t-检验 220 9.3.4 总体回归模型显著性的 F-检验 221 9.3.5 营养等级与含糖量和纤维 含量之间关系的F-检验 222 9.3.6 特定系数i的置信区间 223 9.3.7 (在给定x1,x2,…,xm的情况下)y 的均值的置信区间 223 9.3.8 (在给定x1,x2,…,xm的情况下) 随机选择的y值的预测区间 223 9.4 利用指示变量的包含范畴型预测变量的回归 224 9.5 调整R2:惩罚包含无用预测变量的模型 230 9.6 序列平方和 231 9.7 多重共线性 233 9.8 变量选择方法 239 9.8.1 有偏F-检验 239 9.8.2 前向选择过程 240 9.8.3 反向删除过程 241 9.8.4 逐步选择过程 241 9.8.5 最佳子集过程 241 9.8.6 所有可能子集过程 242 9.9 油耗数据集 242 9.10 变量选择方法的应用 243 9.10.1 应用于油耗数据集的前向 选择过程 244 9.10.2 应用于油耗数据集的后向 删除过程 245 9.10.3 应用于油耗数据集的逐步选择过程 246 9.10.4 应用于油耗数据集的最佳子集过程 246 9.10.5 MallowsCp统计量 247 9.11 将主成分作为预测变量进行 多元回归 251 R语言开发园地 255 R参考文献 265 练习 265 第Ⅲ部分 分类 第10章 K-最近邻算法 273 10.1 分类任务 273 10.2 k-最近邻算法 274 10.3 距离函数 276 10.4 组合函数 279 10.4.1 简单权重投票方式 279 10.4.2 加权投票 279 10.5 量化属性的相关性:轴伸缩 280 10.6 数据库方面的考虑 281 10.7 将k-最近邻算法用于评估和 预测 281 10.8 k值的选择 282 10.9 利用IBM/SPSS建模工具应用 k-最近邻算法 283 R语言开发园地 284 R参考文献 286 练习 286 第11章 决策树 289 11.1 决策树是什么 289 11.2 使用决策树的要求 291 11.3 分类与回归树 291 11.4 C4.5算法 297 11.5 决策规则 302 11.6 比较C5.0和CART算法应用 到实际的数据 303 R语言开发园地 306 R参考文献 307 练习 308 第12章 神经元网络 311 12.1 输入和输出编码 312 12.2 神经元网络用于评估和预测 313 12.3 神经元网络的简单示例 314 12.4 sigmoid激活函数 316 12.5 反向传播 317 12.6 梯度下降法 317 12.7 反向传播规则 318 12.8 反向传播示例 319 12.9 终止条件 320 12.10 学习率 321 12.11 动量项 322 12.12 敏感性分析 323 12.13 神经元网络建模应用 324 R语言开发园地 326 R参考文献 328 练习 328 第13章 logistic回归 331 13.1 logistic回归简单示例 331 13.2 最大似然估计 333 13.3 解释logistic回归的输出 334 13.4 推理:这些预测有显著性吗 335 13.5 概率比比率与相对风险 337 13.6 对二分logistic回归预测的 解释 339 13.7 对应用于多元预测变量的 logistic回归的解释 342 13.8 对应用于连续型预测变量的 logistic回归的解释 346 13.9 线性假设 351 13.10 零单元问题 353 13.11 多元logistic回归 355 13.12 引入高阶项处理非线性 359 13.13 logistic回归模型的验证 366 13.14 WEKA:应用logistic回归的 实践分析 370 R语言开发园地 374 R参考文献 380 练习 380 第14章 朴素贝叶斯与贝叶斯网络 385 14.1 贝叶斯方法 385 14.2 最大后验(MAP)分类 387 14.3 后验概率比 391 14.4 数据平衡 393 14.5 朴素贝叶斯分类 394 14.6 解释对数后验概率比 397 14.7 零单元问题 398 14.8 朴素贝叶斯分类中的数值型 预测变量 399 14.9 WEKA:使用朴素贝叶斯开展 分析 402 14.10 贝叶斯信念网络 406 14.11 衣物购买示例 407 14.12 利用贝叶斯网络发现概率 409 R语言开发园地 413 R参考文献 417 练习 417 第15章 模型评估技术 421 15.1 用于描述任务的模型评估 技术 421 15.2 用于评估和预测任务的模型 评估技术 422 15.3 用于分类任务的模型评估 方法 423 15.4 准确率和总误差率 425 15.5 灵敏性和特效性 426 15.6 假正类率和假负类率 427 15.7 真正类、真负类、假正类、 假负类的比例 427 15.8 通过误分类成本调整来反映 现实关注点 429 15.9 决策成本/效益分析 430 15.10 提升图表和增益图表 431 15.11 整合模型评估与模型建立 434 15.12 结果融合:应用一系列 模型 435 R语言开发园地 436 R参考文献 436 练习 437 第16章 基于数据驱动成本的 成本-效益分析 439 16.1 在行调整条件下的决策 不变性 439 16.2 正分类标准 440 16.3 正分类标准的示范 442 16.4 构建成本矩阵 444 16.5 在缩放条件下的决策不变性 445 16.6 直接成本和机会成本 446 16.7 案例研究:基于数据驱动误 分类成本的成本-效益分析 446 16.8 再平衡作为误分类成本的 代理 450 R语言开发园地 452 R参考文献 455 练习 455 第17章 三元和k元分类模型的成本- 效益分析 459 17.1 三元目标的分类评估变量 459 17.2 三元分类评估度量在贷款审批问题中的应用 462 17.3 三元贷款分类问题的数据驱动成本-效益分析 466 17.4 比较使用/不使用数据驱动误分类成本的CART模型 467 17.5 一般的k元目标的分类评估 度量 470 17.6 k元分类中评估度量和数据驱动误分类成本的示例 472 R语言开发园地 474 R参考文献 475 练习 475 第18章 分类模型的图形化评估 477 18.1 回顾提升图表和增益图表 477 18.2 使用误分类成本的提升图表 和增益图表 477 18.3 响应图表 479 18.4 利润图表 479 18.5 投资回报(ROI)图表 482 R语言开发园地 482 R参考文献 484 练习 484 第Ⅳ部分 聚类 第19章 层次聚类和k-均值聚类 489 19.1 聚类任务 489 19.2 层次聚类方法 491 19.3 单一链聚类 492 19.4 完全链聚类 493 19.5 k-均值聚类 494 19.6 k-均值聚类实操示例 495 19.7 k-均值算法执行中MSB、MSE和伪-F的行为 498 19.8 SAS Enterprise Miner中k-均值算法的应用 499 19.9 使用簇成员关系来预测客户 流失 501 R语言开发园地 502 R参考文献 503 练习 504 第20章 Kohonen网络 505 20.1 自组织映射 505 20.2 Kohonen网络 507 20.3 Kohonen网络学习示例 508 20.4 簇有效性 511 20.5 使用Kohonen网络进行聚类 应用 511 20.6 解释簇 512 20.7 将簇成员关系作为下游数据 挖掘模型的输入 517 R语言开发园地 518 R参考文献 520 练习 520 第21章 BIRCH聚类 521 21.1 BIRCH聚类的理论基础 521 21.2 簇特征 522 21.3 簇特征树 523 21.4 阶段1:构建CF树 523 21.5 阶段2:聚类子簇 525 21.6 BIRCH聚类示例之阶段1: 构建CF树 525 21.7 BIRCH聚类示例之阶段2: 聚类子簇 530 21.8 候选聚类解决方案的评估 530 21.9 案例研究:在银行贷款数据集 上应用BIRCH聚类 531 21.9.1 案例研究第1课:对于 任意聚类算法避免高度 相关的输入 532 21.9.2 案例研究第2课:不同的 排序可能会导致不同的 簇数目 535 R语言开发园地 537 R参考文献 538 练习 538 第22章 度量簇的优劣 541 22.1 度量簇优劣的基本原理 541 22.2 轮廓方法 541 22.3 轮廓值示例 542 22.4 Iris数据集的轮廓值分析 544 22.5 伪-F统计方法 547 22.6 伪-F统计示例 549 22.7 将伪-F统计应用于Iris 数据集 550 22.8 簇验证 551 22.9 将簇验证方法应用于贷款 数据集 551 R语言开发园地 554 R参考文献 556 练习 557 第Ⅴ部分 关联规则 第23章 关联规则 561 23.1 亲和度分析与购物篮分析 561 23.2 支持度、可信度、频繁项集和 先验属性 564 23.3 先验算法工作原理(第1部 分) 建立频繁项集 565 23.4 先验算法工作原理(第2部 分) 建立关联规则 566 23.5 从标志数据扩展到分类数据 569 23.6 信息理论方法:广义规则推理 方法 570 23.7 关联规则不易做好 571 23.8 度量关联规则可用性的方法 573 23.9 关联规则是监督学习还是 无监督学习 574 23.10 局部模式与全局模型 574 R语言开发园地 575 R参考文献 575 练习 576 第Ⅵ部分 增强模型性能 第24章 细分模型 581 24.1 细分建模过程 581 24.2 利用EDA识别分段的细分 建模 583 24.3 利用聚类方法识别分段的 细分建模 585 R语言开发园地 589 R参考文献 591 练习 591 第25章 集成方法:bagging和 boosting 593 25.1 使用集成分类模型的理由 593 25.2 偏差、方差与噪声 594 25.3 适合采用bagging的场合 595 25.4 bagging 596 25.5 boosting 599 25.6 使用IBM/SPSS建模器应用 bagging和boosting 602 参考文献 603 R语言开发园地 604 R参考文献 605 练习 606 第26章 模型投票与趋向平均 609 26.1 简单模型投票 609 26.2 其他投票方法 610 26.3 模型投票过程 611 26.4 模型投票的应用 612 26.5 什么是趋向平均 616 26.6 趋向平均过程 616 26.7 趋向平均的应用 618 R语言开发园地 619 R参考文献 621 练习 622 第Ⅶ部分 更多主题 第27章 遗传算法 627 27.1 遗传算法简介 627 27.2 基因算法的基本框架 628 27.3 遗传算法的简单示例 629 27.3.1 第1次迭代 629 27.3.2 第2次迭代 631 27.4 改进及增强:选择 631 27.5 改进及增强:交叉 633 27.5.1 多点交叉 633 27.5.2 通用交叉 634 27.6 实值变量的遗传算法 634 27.6.1 单一算术交叉 635 27.6.2 简单算术交叉 635 27.6.3 完全算术交叉 635 27.6.4 离散交叉 635 27.6.5 正态分布突变 635 27.7 利用遗传算法训练神经元 网络 636 27.8 WEKA:使用遗传算法进行 分析 640 R语言开发园地 646 R参考文献 647 练习 647 第28章 缺失数据的填充 649 28.1 缺失数据填充的必要性 649 28.2 缺失数据填充:连续型变量 650 28.3 填充的标准误差 653 28.4 缺失值填充:范畴型变量 653 28.5 缺失的处理模式 654 参考文献 655 R语言开发园地 655 R参考文献 657 练习 658 第Ⅷ部分 案例研究:对直邮营 销的响应预测 第29章 案例研究,第1部分:业务 理解、数据预处理和探索性 数据分析 661 29.1 数据挖掘的跨行业标准 661 29.2 业务理解阶段 662 29.3 数据理解阶段,第一部分: 熟悉数据集 663 29.4 数据准备阶段 667 29.4.1 消费金额为负值的情况 667 29.4.2 实现正态性或对称性的 转换 669 29.4.3 标准化 671 29.4.4 派生新变量 671 29.5 数据理解阶段,第二部分: 探索性数据分析 674 29.5.1 探索预测因子和响应之间 的关系 674 29.5.2 研究预测因子间的相关性 结构 679 29.5.3 逆转换对于解释的 重要性 682 第30章 案例研究,第2部分:聚类与 主成分分析 685 30.1 数据划分 685 30.2 制定主成分 686 30.3 验证主成分 689 30.4 主成分概括 691 30.5 利用BIRCH聚类算法选择最优 聚类数 694 30.6 利用k均值聚类算法选择最优 聚类数 695 30.7 k-均值聚类应用 696 30.8 验证聚类 697 30.9 聚类概括 698 第31章 案例研究,第3部分:建模与 评估性能和可解释性 699 31.1 选择性能最佳模型,还是既要 性能又要可解释性 699 31.2 建模与评估概述 700 31.3 利用数据驱动开销开展损益 分析 700 31.4 输入到模型中的变量 702 31.5 建立基线模型性能 703 31.6 利用误分类开销的模型 704 31.7 需要用代理调整误分类开销 的模型 705 31.8 采用投票和趋向平均方法 合并模型 706 31.9 对利润最佳模型的解释 707 第32章 案例研究,第4部分:高性能 建模与评估 709 32.1 输入到模型中的变量 709 32.2 使用误分类开销的模型 710 32.3 需要作为误分类开销代理 调整的模型 710 32.4 使用投票和趋向平均的合并 模型 711 32.5 经验总结 713 32.6 总结 713 附录A 数据汇总与可视化 715
你还可能感兴趣
我要评论
|