本书全面介绍了预测性分析相关方法,不仅直观地阐述了相关概念,还给出了现实的示例问题和真实的案例研究包括从失败项目获得的经验教训。
本书理论和实践内容相对平衡,便于读者加深理解。
全书共9章,外加一个附录。
第1章为分析导论,
第2章为预测性分析和数据挖掘导论,
第3章介绍预测性分析的标准流程,
第4章介绍预测性分析的数据和方法,
第5章介绍预测性分析算法,
第6章探讨预测性建模中的高阶主题,
第7章介绍文本分析、主题建模和情感分析,
第8章介绍预测性分析使用的大数据,
第9章介绍深度学习和认知计算,
附录展望了商业分析和数据科学工具的前景。
本书适合计算机科学、数据科学和商业分析领域的相关从业人员阅读。
通常来说,商业分析,特别是预测性分析,用于预见未来和做出更明智、更快的商业决策。从错误中学习的传统观念不再适用,现实更像是一击出局。要想在当前动荡的商业环境中生存,管理者就必须以绝对准确的方式及时识别问题和机会,并计算和实施最优决策。在这种情况下,使用商业分析的组织不仅可以生存下来,而且还能够茁壮成长。商业分析曾被认为是一种高级/可选的能力,现在则是一种必需品必须具备的组织能力。有了商业分析,公司可以利用数据了解发生了什么,预见将要发生什么,并落实会发生的事情。商业分析现在是企业管理的黄金标准。
分析(或者更恰当地说是数据分析)可以简单地定义为发现数据中有意义的模式新奇的信息和知识。我们生活在大数据时代,数据正在高速、大量和多样化地被创建,因此分析的定义主要关注的是数据的价值主张。商业分析是一种特殊的分析应用,它利用底层的工具、技术和原则来为极其复杂的商业问题提供解决方案。企业通常将分析应用于商业数据,以描述、预测和优化其商业机会并最大化其绩效。商业分析是当今商界最时兴的词之一,无论看何种商业期刊,你都很可能会看到关于分析以及分析如何改变管理决策方式的文章。分析已经成为循证管理(即证据/数据驱动的决策)的新标签。问题是:为什么分析变得如此流行?为什么是现在?主要原因可以分为四类:需求、可用性、可负担性和文化改变。
商业分析按照术语层次性质通常分为三个层次/梯级:描述性分析、预测性分析和规范性分析。组织通常从描述性分析开始,然后转向预测性分析,最后实现规范性分析。虽然这三个分析梯级是分层的(就复杂性和烦琐性而言),但是从较低层次到较高层次并没有明确的区分。也就是说,企业在处于描述性分析层次的时候,也可以零碎地使用预测性分析甚至规范性分析。预测性分析是本书的主要主题,它处于描述性分析之后和规范性分析之前。在描述性分析方面已经成熟的组织会进入预测性分析这个关键层次。在这个层次中,组织的目光放在了已经发生的事情之外,并试图回答将会发生什么?的问题。本书会深入介绍各种分析技术的预测能力。
或许是由于作为流行词被迅速普及,分析一词正在取代智能挖掘和发现等先前流行的词的地位。例如,商务智能变成了商业分析,客户智能变成了客户分析,Web挖掘变成了Web分析,知识发现变成了数据分析。就连商业分析这个名字本身也受到了数据科学机器学习和认知计算等流行词的挑战。但是,不论使用什么词,目标都是相同的:从大型且特征丰富的数据中创建可操作洞见。因为现代分析可能需要进行大量计算(是由大数据在数量、种类和速度方面的特性决定的),所以用于项目分析的工具、技术和算法使用了管理科学、计算机科学、统计学、机器学习、数据科学和数学等领域开发的最新、最先进的方法。
Dursun Delen博士是商业分析、数据科学和机器学习领域的国际知名专家。他经常受邀参加各种国内外会议,就数据/文本挖掘、商务智能、决策支持系统、商业分析、数据科学和知识管理等主题做大会报告。在2001年被聘任为俄克拉荷马州立大学(Oklahoma State University)的教授前,Delen博士在工业界工作了十多年,致力于为企业开发和交付商业分析解决方案。他曾在私营应用研究和咨询公司Knowledge Based Systems,Inc.(KBSI)担任研究科学家。在KBSI任职的五年间,Delen博士主持了很多与决策支持系统、企业工程、信息系统开发和高级商业分析相关的项目,这些项目由私营企业和美国联邦机构(包括国防部、NASA、国家科学基金会、国家标准和技术研究所以及能源部)资助。现在,除学术工作外,Delen博士还为企业提供专业教育和咨询服务,帮助它们评估分析、数据科学和信息系统需求以及开发最先进的计算机决策支持系统。
Delen博士目前的学术职位是工商管理威廉·S. 斯皮尔斯讲席教授和商业分析帕特森家族讲席教授。他是美国卫生系统创新中心(Center for Health Systems Innovation)的研究主任,也是俄克拉荷马州立大学斯皮尔斯商学院(Spears School of Business)管理科学和信息系统的杰出教授。他在Journal of Business Research、Journal of Business Analytics、Decision Sciences Journal、Decision Support Systems、Communications of the ACM、Computers & Operations Research、Annals of Operations Research、Computers in Industry、Journal of Production Operations Management、Artificial Intelligence in Medicine、Journal of the American Medical Informatics Association、Expert Systems with Applications、Renewable and Sustainable Energy Reviews、Energy、Renewable Energy等核心期刊上发表了150多篇经过同行评议的研究论文。他还撰写或与人合著了11本商业分析、数据科学和商务智能领域的专著和教材。
Delen博士经常在各种商业分析和信息系统的会议上担任专题和子专题的主席。目前,他是Journal of Business Analytics和Frontiers in Artificial Intelligence的主编,Journal of Decision Support Systems、Decision Sciences和Journal of Business Research的高级编辑,Decision Analytics、International Journal of Information and Knowledge Management和International Journal of RF Technologies的副主编,以及其他几本学术期刊的编委会成员。他曾获得著名的富布赖特学者奖、杰出教师和研究者奖、校长杰出研究者奖和大数据导师奖等多项研究和教学奖项。
第1章 分析导论1
1.1 名称中有什么关系2
1.2 为什么分析和数据科学会突然
流行起来4
1.3 分析的应用领域5
1.4 分析面临的主要挑战5
1.5 分析的纵向视图6
1.6 分析的简单分类9
1.7 分析的前沿:IBM Watson12
小结16
参考文献17
第2章 预测性分析和数据挖掘导论18
2.1 什么是数据挖掘20
2.2 数据挖掘不是什么21
2.3 最常见的数据挖掘应用22
2.4 数据挖掘能够发现什么样的模式25
2.5 流行的数据挖掘工具28
2.6 数据挖掘的潜在问题:隐私问题31
小结36
参考文献36
第3章 预测性分析的标准流程38
3.1 数据库的知识发现流程38
3.2 跨行业数据挖掘的标准流程39
3.3 SEMMA43
3.4 SEMMA和CRISP-DM45
3.5 数据挖掘的六西格玛46
3.6 哪种方法最好47
小结51
参考文献51
第4章 预测性分析的数据和方法52
4.1 数据分析中数据的本质52
4.2 分析中的数据预处理54
4.3 数据挖掘方法57
4.4 预测57
4.5 分类58
4.6 决策树63
4.7 数据挖掘中的聚类分析65
4.8 k均值聚类算法67
4.9 关联68
4.10 Apriori算法70
4.11 数据挖掘和预测性分析的误解
与现实71
小结77
参考文献77
第5章 预测性分析算法79
5.1 朴素贝叶斯79
5.2 最近邻算法82
5.3 相似度度量:距离83
5.4 人工神经网络85
5.5 支持向量机88
5.6 线性回归91
5.7 逻辑回归94
5.8 时间序列预测95
小结99
参考文献99
第6章 预测性建模中的高阶主题102
6.1 模型集成102
6.2 预测性分析中的偏差方差权衡112
6.3 预测性分析中的非平衡数据问题115
6.4 预测性分析中机器学习模型的
可解释性118
小结124
参考文献124
第7章 文本分析、主题建模和
情感分析126
7.1 自然语言处理129
7.2 文本挖掘应用132
7.3 文本挖掘流程135
7.4 文本挖掘工具143
7.5 主题建模144
7.6 情感分析146
小结153
参考文献154
第8章 预测性分析使用的大数据156
8.1 大数据从何而来156
8.2 定义大数据的V158
8.3 大数据的基本概念160
8.4 大数据分析解决的业务问题163
8.5 大数据技术163
8.6 数据科学家169
8.7 大数据和流分析171
8.8 数据流挖掘172
小结174
参考文献175
第9章 深度学习和认知计算176
9.1 深度学习导论176
9.2 浅层神经网络基础179
9.3 人工神经网络的要素181
9.4 深度神经网络186
9.5 卷积神经网络189
9.6 循环神经网络与长短时记忆网络195
9.7 实现深度学习的计算机框架199
9.8 认知计算201
小结209
参考文献209
附录 KNIME及商业分析和
数据科学工具前景展望213