本书从理解问题定义、了解数据内的高层信息、数据清理、视化数据,到基础建模、模型优化,分享一个数据分析师的视角与思路。在预测分析的流程中,一步步用详细的图文代码讲解使用到的库,如何正确使用各个库中的方法和函数,以及在遇到类似的问题时如何套用学过的知识。本书共8章。第1章对预测分析的流程进行一个高层次的概述。第2章介绍本书需要安装使用的库,并讲解数据清理步骤的执行。第3章讲解基础建模需考虑的细节,结合第4章的模型选择,可以搭建一个基础的预测管道。第5章和第6章分别从模型和数据的角度讲解如何优化预测表现。第7章讲解时间序列这一特殊数据的预测方法。最后,第8章总结全书学习到的内容,解决一个实战问题。本书面向3类读者。第1类,有编程基础但毫无数据科学背景,有意入门的读者;第2类,有数据科学理论基础,有意进入实操的读者,如刚毕业没有业界经验的学生;第3类,有数据科学理论基础与实操经验,但日常工作集中在数据分析管道中的数据分析师。
王沁晨,多伦多大学圣乔治校区计算机专业,曾在加拿大零售企业Loblaw Companies担任机器学习数据分析师,从公司传统的大型数据库中筛选有效信息、清理数据、人工数据挖掘、视化,到基础建模、模型优化、数据再筛选,再到结合商业需求创造扩展性强的实用管线,让项目从理论性的头脑风暴变现为商业价值。
第1章预测分析与机器学习的实用价值
1.1人工智能、机器学习与数据分析的关系
1.2什么是预测分析
1.3预测分析在各行业中的应用
1.4预测分析流程概览
1.5小结
第2章数据清理
2.1建立编程环境
2.1.1Anaconda简介及安装
2.1.2Jupyter N0tebook 简介及安装
2.1.3Pandas简介及安装
2.1.4scikitlearn 简介及安装
2.1.5XGBoost、LightGBM、CatBoost简介及安装
2.1.6TensorFlow简介及安装
2.2面对异构数据如何下手
2.2.1什么是异构数据
2.2.2如何处理异构数据
2.3数据误差
2.3.1各类数据误差及其影响
2.3.2如何处理数据误差
2.4数据重新格式化
第3章基础建模
3.1判断何为X和y
3.1.1X和y的定义
3.1.2X和y的选择对预测的影响
3.2训练集、验证集与测试集
3.2.1三者的定义及关系
3.2.2如何使用sklearn分离3个集
3.2.3如何使用Pandas手动分离3个集
3.3数据泄#
3.3.1不同类型的数据泄#
3.3.2发现并避免目标泄#
3.3.3避免训练集与测试集的相互污染
3.4偏差与方差
3.4.1定义偏差与方差
3.4.2过拟合与欠拟合
3.4.3实践中的过拟合与欠拟合
3.5小结
...