本书采用常用技术与真实案例相结合的讲解方式,深入浅出地介绍了Python机器学习应用的主要内容。全书共8章,内容包括Python概述、NumPy数值计算、pandas基础、pandas进阶、Matplotlib绘图、scikit-learn、餐饮企业综合分析与预测、通信运营商客户流失分析与预测。前6章设置了选择题、填空题和操作题,后两章设置了操作题,希望通过练习和操作实践,读者可以巩固所学的内容。
本书可以作为高校大数据或人工智能专业的教材,也可作为机器学习爱好者的自学用书。
全书大部分章节紧扣实际需求展开,不堆积知识点,着重于解决问题时思路的启发与方案的实施,帮助读者真正理解与消化Python机器学习编程与实战。
书中案例全部源于企业真实项目,可操作性强,引导读者融会贯通,并提供源代码等相关学习资源,帮助读者快速掌握Python机器学习相关技能。
张良均,高级信息系统项目管理师,泰迪杯全国大学生数据挖掘竞赛(www.tipdm.org)的发起人。华南师范大学、广东工业大学兼职教授,广东省工业与应用数学学会理事。兼有大型高科技企业和高校的工作经历,主要从事大数据挖掘及其应用的策划、研发及咨询培训。全国计算机技术与软件专业技术资格(水平)考试继续教育和CDA数据分析师培训讲师。发表数据挖掘相关论文数二十余篇,已取得国家发明专利12项,主编图书《神经网络实用教程》《数据挖掘:实用案例分析》《MATLAB数据分析与挖掘实战》等9本畅销图书,主持并完成科技项目9项。获得SAS、SPSS数据挖掘认证及Hadoop开发工程师证书,具有电力、电信、银行、制造企业、电子商务和电子政务的项目经验和行业背景。
第 1章 Python概述 1
1.1 Python简介 1
1.1.1 Python语言 1
1.1.2 Python与机器学习 1
1.1.3 Python环境配置 2
1.2 Python基础知识 5
1.2.1 固定语法 5
1.2.2 运算符 6
1.2.3 数据类型 9
1.2.4 Python I/O 14
1.3 控制语句 17
1.3.1 条件语句 18
1.3.2 循环语句 20
1.4 函数 22
小结 25
课后习题 26
第 2章 NumPy数值计算 28
2.1 ndarray的创建与索引 28
2.1.1 创建ndarray 28
2.1.2 ndarray的索引和切片 33
2.2 ndarray的基础操作 36
2.2.1 变换ndarray的形态 36
2.2.2 排序与搜索 42
2.3 ufunc 46
2.3.1 ufunc的广播机制 46
2.3.2 常用ufunc运算 47
小结 54
课后习题 54
第3章 pandas基础 56
3.1 pandas常用类 56
3.1.1 Series 56
3.1.2 DataFrame 60
3.1.3 Index 64
3.2 DataFrame基本操作 65
3.2.1 索引 66
3.2.2 排序 70
3.2.3 合并 73
3.3 其他数据类型操作 78
3.3.1 时间操作 78
3.3.2 文本操作 87
3.3.3 category操作 90
小结 93
课后习题 93
第4章 pandas进阶 95
4.1 数据的读取与写出 95
4.1.1 CSV 95
4.1.2 Excel 97
4.1.3 数据库 98
4.2 DataFrame进阶 101
4.2.1 统计分析 101
4.2.2 分组运算 106
4.2.3 透视表和交叉表 111
4.3 数据准备 113
4.3.1 缺失值处理 113
4.3.2 重复数据处理 117
4.3.3 连续特征离散化处理 118
4.3.4 哑变量处理 120
小结 122
课后习题 122
第5章 Matplotlib绘图 124
5.1 Matplotlib绘图基础 124
5.1.1 编程风格 124
5.1.2 动态rc参数 128
5.2 分析特征关系常用图形 133
5.2.1 散点图 133
5.2.2 折线图 135
5.3 分析特征内部数据状态常用
图形 137
5.3.1 直方图与条形图 138
5.3.2 饼图 140
5.3.3 箱线图 142
小结 144
课后习题 144
第6章 scikit-learn 146
6.1 数据准备 146
6.1.1 标准化 146
6.1.2 归一化 149
6.1.3 二值化 150
6.1.4 独热编码 151
6.2 降维 153
6.2.1 PCA 154
6.2.2 ICA 158
6.2.3 LDA 162
6.3 分类 166
6.3.1 Logistic回归 166
6.3.2 SVM 171
6.3.3 决策树 174
6.3.4 KNN 178
6.3.5 朴素贝叶斯 180
6.3.6 随机森林 183
6.3.7 多层感知机 186
6.4 回归 189
6.4.1 最小二乘回归 191
6.4.2 岭回归 194
6.4.3 Lasso回归 195
6.5 聚类 198
6.5.1 K-Means 199
6.5.2 层次聚类 202
6.5.3 DBSCAN 205
6.5.4 GMM 208
6.6 模型验证 212
6.6.1 数据集划分 212
6.6.2 交叉验证 213
6.6.3 自动调参 214
6.6.4 模型评价 217
小结 221
课后习题 221
第7章 餐饮企业综合分析与预测 225
7.1 餐饮企业需求分析 225
7.1.1 餐饮企业现状与需求 225
7.1.2 餐饮企业数据基本状况 226
7.1.3 餐饮企业数据分析的步骤与流程 227
7.2 数据准备 227
7.2.1 统计每日用餐人数与销售额 227
7.2.2 数据预处理 229
7.3 使用K-Means算法进行客户价值分析 231
7.3.1 构建RFM特征 231
7.3.2 构建K-Means模型 233
7.3.3 K-Means模型结果分析 234
7.4 使用决策树算法实现餐饮客户流失预测 236
7.4.1 构建客户流失特征 236
7.4.2 构建客户流失预测模型 238
7.4.3 分析决策树模型结果 239
小结 240
课后习题 240
第8章 通信运营商用户流失分析与预测 242
8.1 通信运营商用户流失需求分析 242
8.1.1 通信运营商现状与需求 242
8.1.2 通信运营商数据基本情况 242
8.1.3 通信运营商用户流失分析与预测的步骤与流程 243
8.2 数据准备 244
8.2.1 数据去重与降维 244
8.2.2 数据清洗 245
8.2.3 数据合并 247
8.3 特征工程 251
8.3.1 独热编码 251
8.3.2 合并预处理后的数据集 252
8.4 使用MLP算法实现通信运营商用户流失预测 253
8.4.1 数据集划分与数据标准化 253
8.4.2 构建用户流失预测模型 255
8.4.3 模型评价 255
小结 256
课后习题 256