实用预测分析_[美] 拉尔夫·温特斯（Ralph Winters）著，刘江一译_9787111603351

本书详细讲述了预测分析的原理、技术及实现，并深入讨论了大数据。重点着眼于掌握提高开发、实行预测分析所需的6项关键实用技能。本书还提供了来自市场、医疗和零售等行业的真实案例，有助于读者针对产品实现自己的预测分析。

Preface 前　　言这是另一类关于预测分析的书。我写这本书的初衷是为传统分析人员介绍一些使用开放源码工具的预测分析技术。
不过，我很快意识到，传统分析工具的某些特性可以使新一代数据科学家受益。我曾经在企业数据解决方案方面做了大量工作，我很有兴趣撰写一些不同类型的主题，如分析方法、敏捷、元数据、SQL分析和可重复的研究，这些研究在一些数据科学/预测分析书中经常被忽略，但对分析项目的成功是至关重要的。
我还想写一些很少被提及的分析技术，这些技术超出了标准回归和分类任务的范围，例如使用生存分析来预测客户流失，使用购物篮分析作为推荐引擎。
由于基于云计算的解决方案已经有了很大的进展，我认为增加一些关于云分析（大数据）的内容很重要，所以我加入了一些在Spark环境中开发预测分析解决方案的章节。
本书的重点之一是触类旁通，我希望无论你的技术方向是什么，也无论你如何理解数据科学、预测分析、大数据，甚至是诸如预测这样的术语，都可以在这里找到适合自己需求的内容。
此外，作为数据科学团队的一部分，我要向领域专家们致敬。通常情况下，这些精通领域业务知识的分析师没有耀眼的头衔，但他们对于分析项目的成功至关重要。希望我讨论的一些话题能打动他们的心弦，让他们对预测分析的一些技术概念更感兴趣。
当Packt邀请我写一本关于预测分析的书时，我首先想到的是寻找一种优秀的开源语言，来弥合传统分析与当今数据科学家之间的鸿沟。我认真地考虑过这个问题，是因为每种语言在如何表达问题的解决方案方面都有细微的差别。然而，我决定最终不在意那些细节，因为预测分析这个概念不是依赖于任何一种编程语言的，而且编程语言的选择通常由个人偏好以及你所在的公司决定。
我最终选择了R语言，因为我的专业背景是统计学，我觉得R语言具有良好的统计学严谨性，现在它不但已经和SAS等适合的软件做了合理的整合，而且还与关系数据库系统以及Web协议有很好的整合。它还具有出色的绘图和可视化系统，以及用户贡献的许多好用的软件包，涵盖了大部分的统计和预测分析功能。
关于统计数据，我建议你尽可能多地学习相关知识。了解统计数据可以帮助你区分优良的模型与糟糕的模型，并通过了解基本概念—如中心倾向度量（平均值、中位数、众数）、假设检验、p值和效应大小—来帮助你识别不良数据中的许多问题。如果你了解数据统计，将不再仅仅以自动的方式运行封装好的软件，而是可以多少了解一些底层的运行机制。
R语言的一个缺点是它在内存中处理数据，因此在单个PC上使用时，软件会限制数据集的大小，使之处理不了更大的数据集。对于本书中使用的数据集，在单个PC上运行R程序来处理应该没有问题。如果你有兴趣分析大数据，本书将用几章的篇幅讨论在云环境中的R和Spark，你可以在这些章中看到如何处理分布在许多不同计算机上的大型数据集。
谈到本书中使用的数据集，我不想使用那些你经常看到的、被人们反复分析的数据集。其中一些数据集的确非常适合用来演示技术，但我想要一些新的东西。然而，我没有看到多少我认为对本书有用的数据。有些数据来源不明，有些需要正式的使用许可，有些缺少好的数据字典。所以，在许多章节中，我最终使用R中的模拟技术生成自己的数据。我觉得这是一个不错的选择，因为借此机会我能够介绍一些可以在工作中使用的数据生成技术。
我使用的数据涵盖了广泛的范围，包括市场营销、零售和医疗保健应用。我本来希望能增加一些财务方面的预测分析用例，但时间不够用了。也许我会把这方面的内容留到另一本书中去讲！
本书主要内容第1章从介绍预测分析的发展历史开始，然后讨论预测分析从业人员的一些不同角色，并描述他们从事的行业。接下来讨论在PC上组织预测分析项目的方法，介绍R语言，并以简短的预测模型为例结束该章。
第2章讨论如何将预测模型的开发过程组织成几个阶段，每个阶段都有不同的目标，如探索和问题定义，最后是预测模型的实际开发。该章讨论两种重要的分析方法：CRISP-DM和SEMMA。在该章中贯穿了一些示例代码，以展示一些方法的核心思想，希望你不会感到枯燥。
第3章介绍可以将自己的输入数据引入到R程序中的各种方法。该章还讨论使用标准SQL函数和R dplyr包的各种数据预处理方法。没有输入数据？没问题。该章将展示如何使用R语言的wakefield包生成你自己的模拟数据。
第4章从对有监督算法和无监督算法的讨论开始。该章的其余部分集中在回归算法，它是一种代表性的有监督算法。你将了解如何解释回归算法的输出，如模型系数和残差图。该章甚至提供一个交互式游戏，利用交互测试，看看你是否能够辨别一系列的残差是不是随机的。
第5章重点讨论另外三种广泛使用的核心预测算法，而且把它们与回归结合起来，可用于解决许多（可能是大部分）预测分析问题。该章讨论的最后一个算法（支持向量机（SVM））通常用于诸如非结构化文本之类的高维数据，因此示例代码将附带使用一些客户投诉评论的文本挖掘技术。
第6章讨论一种称为生存分析的具体建模技术，并展

你还可能感兴趣

我要评论