本书将通过具有中国特色的具体案例来讲授Python编程的基本语法规则,并通过Python语言来介绍数据科学的基本内容以及数据分析方法的基本思想。内容分为两部分,第一部分介绍Python编程的基本概念,包括常用表达式、数据类型、表格处理、数据可视化等;第二部分结合Python语言介绍数据分析方法的基本思想,比如假设检验、置信区间、参数估计、线性回归、分类问题等。
朱利平,中国人民大学 “杰出学者”特聘教授、博士生导师,统计与大数据研究院副院长。国家重大人才工程入选者,长期从事复杂数据分析方法和理论的研究,在国际重要学术期刊发表论文70余篇。
第一章引言/1
1.1什么是大数据/2
1.2什么是数据科学/2
1.3教学内容和目的/3
第二章因果推断/4
2.1观察性数据/5
2.2随机化双盲试验/9
2.3随机化试验的其他例子/13
2.4结论/14
第三章Python入门/15
3.1Python安装指南/15
3.2表达式/16
3.3数值类型/19
3.4字符串/23
3.5赋值语句/28
3.6其他运算符/35
3.7调用函数/42
3.8结论/47
第四章复杂数据类型/48
4.1列表/49
4.2元组/56
4.3字典/57
4.4数组/60
第五章复杂代码组/66
5.1条件语句/69
5.2循环语句/73
5.3函数/85
第六章表格处理/92
6.1模拟数据/96
6.2案例1:1812年俄法战争数据/107
6.3案例2:2010年中国人口普查资料/111
第七章数据可视化/118
7.1基础语法/118
7.2散点图和折线图/119
7.3柱状图、饼图、箱线图和概率图/140
第八章概率、条件概率及贝叶斯公式/149
8.1概率/149
8.2条件概率/151
8.3贝叶斯公式/155
8.4随机变量和概率分布/158
第九章经验分布/166
9.1总体概率分布的直方图/166
9.2经验分布的直方图/167
9.3大数定律/171
9.4总体/174
9.5从总体中抽样及样本的经验分布/177
9.6参数/179
9.7模拟统计量/180
9.8案例1:NBA周明星球员的年龄/182
9.9案例2:估计敌军飞机的数量/185
第十章假设检验/191
10.1案例1:第十二届全国人民代表大会少数民族人大代表比例问题/191
10.2案例2:孟德尔的豌豆花/199
10.3案例3:某附属中学学生的平均分数/202
10.4错误概率/204
10.5简单的假设检验/206
第十一章参数估计/216
11.1百分位数/216
11.2自助法/222
11.3置信区间/233
第十二章均值与中心极限定理/239
12.1均值的定义/239
12.20/1数据的均值是数据中1的比例/240
12.3均值和直方图/241
12.4一些例子/244
12.5数据波动性/247
12.6标准差和正态曲线/252
12.7中心极限定理/258
12.8样本均值的波动/263
12.9样本均值的中心极限定理/268
第十三章预测/271
13.1相关性/272
13.2回归直线/279
13.3均方根误差/287
第十四章回归中的统计推断/290
14.1回归模型/290
14.2对于真实斜率的推断/292
14.3对于散点图的重抽样/295
14.4预测的波动性/304
14.5总结/306
第十五章机器学习常用方法/308
15.1回归模型/308
15.2分类方法/321
15.3非监督学习——聚类/325