本书以Python数据分析常用技术与真实案例相结合的方式,深入浅出地介绍Python商务数据分析应用的重要内容。本书共10章,第1章介绍商务数据分析的基本概念、流程、应用场景,以及常用数据分析工具;第2章介绍Python的环境配置,以及Python使用入门等;第3章介绍数据获取,包括常见的数据来源、数据类型、数据读取方式,以及常用Python数据格式转换与读/写函数;第4章介绍探索性分析,包括描述性统计分析和可视化分析,以及常用Python探索性分析函数;第5章介绍数据预处理中的各个步骤,包括数据清洗、数据合并和数据变换,以及它们各自对应的Python函数;第6章介绍各类模型的构建与评价方法,包括分类与回归、聚类分析、关联规则、时序模式和智能推荐;第7~9章分别介绍O2O优惠券个性化投放、零售商品购物篮分析、餐饮企业综合分析等案例;第10章介绍使用TipDM数据挖掘建模平台实现餐饮企业综合分析案例。第2~6章包含选择题和操作题,第7~10章包含操作题,通过练习和操作实践,读者可以巩固所学内容。
本书可作为高校数据科学或商务数据分析相关专业的教材,也可作为数据分析爱好者的自学用书。
1.将Python基础与机器学习常用编程库精炼整合,帮助零基础读者更快地学会使用Python进行机器学习。
2.以Python数据分析常用技术与真实案例相结合的方式,深入浅出地介绍了从零开始进行商务数据分析的必备技能
3.设计思路以应用为导向,让读者明确如何利用所学知识来解决问题,通过课后练习巩固所学知识,使读者真正理解并能够应用所学知识
4.提供PPT课件、教学大纲、教学进度表等教学资源
何伟,男,中共党员,1982年出生,工学博士,副教授,硕士生导师,闽都学者拔尖人才,香港理工访问学者,入选福建省高校杰出青年科研人才培育计划。
主要研究领域:智能系统与信息融合、船海装备与新能源。近三年,承担了《系统工程》、《大数据分析与应用》《智能交通系统创新》、《物流技术与设备》等课程教学任务,先后在国内外发表学术论文30余篇,其中SCI、EI等检索收录论文20余篇;主持和参与国家自然科学基金、省自然科学基金项目等省部级以上项目十余项;获得福建省教学成果特等奖、福建省科技进步二等奖、中国航海学会科学技术一等奖等多项省部级奖项。现兼任福建省创新创业创造教育指导委员会委员,中国智能交通协会水路交通专业委员会委员,福建省船舶与海洋工程学会委员。
张良均 高级信息系统项目管理师,泰迪杯全国大学生数据挖掘竞赛(www.tipdm.org)的发起人。华南师范大学、广东工业大学兼职教授,广东省工业与应用数学学会理事。兼有大型高科技企业和高校的工作经历,主要从事大数据挖掘及其应用的策划、研发及咨询培训。全国计算机技术与软件专业技术资格(水平)考试继续教育和CDA数据分析师培训讲师。发表数据挖掘相关论文数二十余篇,已取得国家发明专利12项,主编图书《神经网络实用教程》、《数据挖掘:实用案例分析》、《MATLAB数据分析与挖掘实战》等9本畅销图书,主持并完成科技项目9项。获得SAS、SPSS数据挖掘认证及Hadoop开发工程师证书,具有电力、电信、银行、制造企业、电子商务和电子政务的项目经验和行业背景。
张良均
资深大数据专家,广东泰迪智能科技股份有限公司董事长,国家科技部入库技术专家,全国专业学位水平评估专家,工信部教育与考试中心入库专家,中国工业与应用数学学会理事,广东省工业与应用数学学会副理事长,广东省高等职业教育教学指导委员会委员,华南师范大学、中南财经政法大学等40余所高校校外硕导或兼职教授,泰迪杯全国数据挖掘挑战赛发起人。
曾在国内外重要学术刊物上发表学术论文10余篇,主导编写图书专著60余部,其中获普通高等教育十一五规划教材一部,十三五职业教育国家规划教材一部;参与标准建设4项,主持国家级课题1项、省部级课题4项。获得SAS、SPSS数据挖掘认证及Hadoop开发工程师证书,具有信访、电力、电信、银行、制造企业、电子商务和电子政务的项目经验和行业背景,并荣获中国产学研合作促进奖、中国南方电网公司发明专利一等奖、广东省农业技术推广二等奖、广州市荔湾区科学技术进步奖。
第 1章 商务数据分析概述 1
1.1 商务数据分析的基本概念 1
1.2 数据分析流程 2
1.2.1 需求分析 3
1.2.2 数据获取 3
1.2.3 探索性分析 3
1.2.4 数据预处理 3
1.2.5 构建模型 3
1.2.6 模型评价 4
1.2.7 应用 4
1.3 商务数据分析应用场景 4
1.4 数据分析工具 6
1.4.1 常用的数据分析工具 6
1.4.2 Python数据分析的优势 7
1.4.3 Python数据分析常用库 7
小结 9
课后习题 9
第 2章 Python数据分析简介 10
2.1 Python数据分析环境 10
2.1.1 Python的Anaconda发行版 10
2.1.2 Anaconda安装 11
2.2 Python使用入门 15
2.2.1 运行方式 16
2.2.2 基本命令 17
2.2.3 库的导入与添加 19
小结 20
课后习题 21
第3章 数据获取 22
3.1 常见的数据来源 22
3.2 数据类型 23
3.3 数据读取方式 24
3.3.1 数据库连接 24
3.3.2 文件读取 25
3.4 常用的Python数据格式转换与读/写函数 27
3.4.1 常用的Python数据格式转换函数 27
3.4.2 常用的Python数据读/写函数 28
小结 31
课后习题 31
第4章 探索性分析 33
4.1 描述性统计分析 33
4.1.1 集中趋势统计指标 33
4.1.2 离散程度统计指标 34
4.2 可视化分析 36
4.2.1 散点图 36
4.2.2 折线图 37
4.2.3 柱形图 40
4.2.4 饼图 41
4.2.5 箱线图 42
4.2.6 热力图 44
4.3 常用的Python探索性分析函数 48
4.3.1 常用的Python基本统计分析函数 48
4.3.2 常用的Python作图函数 48
小结 52
课后习题 53
第5章 数据预处理 54
5.1 数据清洗 54
5.1.1 缺失值处理 55
5.1.2 异常值处理 58
5.2 数据合并 61
5.2.1 多表合并 62
5.2.2 分组聚合 69
5.3 数据变换 76
5.3.1 函数变换 77
5.3.2 数据标准化 77
5.3.3 连续属性离散化 79
5.3.4 属性构造 82
5.4 Python的主要数据预处理函数 83
小结 85
课后习题 85
第6章 构建模型 87
6.1 分类与回归 87
6.1.1 实现过程 88
6.1.2 常用的分类与回归算法 89
6.1.3 回归分析 89
6.1.4 决策树 93
6.1.5 人工神经网络 99
6.1.6 分类与回归算法评价 105
6.1.7 常用的Python分类与回归算法 109
6.2 聚类分析 109
6.2.1 常用的聚类分析算法 110
6.2.2 K-Means算法 111
6.2.3 聚类分析算法评价 116
6.2.4 常用的Python聚类分析算法 118
6.3 关联规则 120
6.3.1 常用的关联规则算法 120
6.3.2 Apriori算法实现 121
6.4 时序模式 126
6.4.1 时间序列分析方法与模型 126
6.4.2 时间序列的预处理 127
6.4.3 平稳时间序列分析 129
6.4.4 非平稳时间序列分析 132
6.4.5 常用的Python时序模式算法 139
6.5 智能推荐 141
6.5.1 常见的智能推荐算法 142
6.5.2 智能推荐算法评价 143
6.5.3 Python智能推荐算法 145
小结 153
课后习题 153
第7章 O2O优惠券个性化投放 155
7.1 业务背景与项目目标 155
7.2 分析方法与过程 156
7.2.1 数据获取 157
7.2.2 探索性分析 158
7.2.3 数据预处理 166
7.2.4 构建模型 171
7.2.5 模型评价 174
7.2.6 应用 176
小结 177
课后习题 177
第8章 零售商品购物篮分析 178
8.1 业务背景与项目目标 178
8.2 分析方法与过程 179
8.2.1 数据获取 179
8.2.2 探索性分析 180
8.2.3 数据预处理 186
8.2.4 构建模型 187
8.2.5 模型评价 189
8.2.6 应用 189
小结 189
课后习题 190
第9章 餐饮企业综合分析 191
9.1 业务背景与项目目标 191
9.2 分析方法与过程 193
9.2.1 数据获取 193
9.2.2 探索性分析 196
9.2.3 数据预处理 201
9.2.4 构建模型 203
9.2.5 模型评价 225
9.2.6 应用 231
小结 231
课后习题 231
第 10章 基于TipDM数据挖掘建模平台进行餐饮企业综合分析 232
10.1 平台简介 232
10.1.1 首页 233
10.1.2 数据源 234
10.1.3 工程 235
10.1.4 系统组件 236
10.1.5 TipDM数据挖掘建模平台的本地化部署 237
10.2 快速构建餐饮企业综合分析工程 239
10.2.1 数据获取 240
10.2.2 数据预处理 243
10.2.3 探索性分析 244
10.2.4 构建模型 247
小结 251
课后习题 251
参考文献 252