大话数据科学——大数据与机器学习实战(基于R语言)
定 价:128 元
- 作者:陈文贤
- 出版时间:2020/7/1
- ISBN:9787302551300
- 出 版 社:清华大学出版社
- 中图法分类:TP274
- 页码:396
- 纸张:胶版纸
- 版次:1
- 开本:16K
本书以独特的方式讲解数据科学,不仅让读者可以轻松学习数据科学理论,又可以动手(手算和机算)进行数据科学实战。本书特色:全彩印刷,图形、表格、思维导图丰富;避免深奥的数学证明,采用简单的数学说明;用各种学习图将本书内容贯穿起来;实战计算,包含小型数据的演算和大型数据的实战程序。
本书共13章,内容涵盖丰富的数据科学模型,包含关联分析、聚类分析、贝叶斯分类、近邻法、决策树、降维分析、回归模型等算法。利用小数据例题介绍计算步骤,同时用R语言验证计算结果。另外,也有大数据的案例数据,例如:推荐系统、支持向量机、集成学习等。另外,本书只有大数据的案例数据用R语言计算。
本书适合各个专业领域(包含金融、电商、保险、互联网等行业)想掌握数据科学的读者,也可以作为高校、社会培训机构教材。由于内容比较多,教师可自行选择教学内容。
"数据科学作为一门新兴的学科,正在高速发展并落地应用。当前的各行各业都充满了数据,这些数据的类型多种多样,不仅包括传统的结构化数据,也包括网页、文本、图像、视频、语音等非结构化数据。 数据科学涵盖的体系甚广,对某一领域进行数据科学研究,首先要研究该领域(比如生物信息学、天体信息学、数字地球等)的特性,然后通过包括统计学、机器学习、数据挖掘、数据库等技术从中分析出需要的结果。这些学科都是数据科学的重要组成部分,只有把它们有机地整合在一起,才能形成整个数据科学的全貌。 陈文贤老师作为数据科学的早等
篇基础篇
章大数据概述3
1.1大数据与相关学科的定义4
1.1.1大数据的定义4
1.1.2数据挖掘6
1.1.3数据挖掘标准过程7
1.1.4机器学习9
1.1.5知识管理12
1.1.6数据科学14
1.1.7商业智能15
1.1.8人工智能17
1.1.9统计学与大数据比较19
1.1.10数据名词的定义21
1.2系统与模型概念22
1.2.1系统定义与成分22
1.2.2输入,处理,输出与黑箱23
1.2.3环境24
1.2.4反馈25
1.2.5效率与效果25
1.2.6模型与建模26
1.2.7模型的假定与参数27
1.2.8敏感,稳健或鲁棒28
1.2.9模型的过拟合28
1.3大数据分析模型的分类30
1.3.1后设模型30
1.3.2关系与因果31
1.3.3基于因果关系的统计学分类32
1.3.4基于因果关系的大数据分类32
1.3.5基于数据类型的分类34
1.3.6基于测量的分类35
1.3.7数据科学模型的其他分类36
1.4大数据的江湖传奇36
1.5R语言“词云图”代码40
1.6本章思维导图42
第2章大数据与R语言43
2.1大数据进位44
2.2R语言介绍45
2.2.1安装R语言软件45
2.2.2下载R语言程序包45
2.3R数据对象的属性与结构46
2.3.1数值47
2.3.2整数47
2.3.3字符串47
2.3.4逻辑47
2.3.5向量48
2.3.6因子49
2.3.7矩阵50
2.3.8数据框52
2.3.9数组52
2.3.10列表53
2.3.11时间序列54
2.3.12访问数据类型和结构54
2.3.13遗失值55
2.3.14读入ExcelCSV数据55
2.3.15编辑数据55
2.3.16保存ExcelCSV数据55
2.3.17数据输入窗口56
2.3.18R的数据结构和函数表56
2.4R的函数包56
2.5R的数据绘图59
2.6本章思维导图
第二篇非监督式学习
第3章关联分析67
3.1关联分析介绍68
3.1.1事务与项目的定义68
3.1.2项集的关联规则69
3.2关联规则数据格式71
3.3关联规则的算法72
3.3.1Apriori算法73
3.3.2关联规则其他测度值74
3.3.3负关联规则75
3.4关联规则的优点和缺点76
3.4.1Apriori算法的优点76
3.4.2Apriori算法的缺点76
3.4.3关联规则的评估76
3.5关联规则的实例计算77
3.5.1尿布与啤酒77
3.5.2豆浆、烧饼与饭团79
3.5.3评估与应用82
3.6R语言实战82
3.6.1泰坦尼克号82
3.6.2商店数据86
3.6.3食品杂货数据90
3.6.4人口收入数据92
3.6.5鸢尾花数据93
3.7本章思维导图96
第4章聚类分析97
4.1聚类分析介绍98
4.2距离与相似度衡量99
4.2.1数值数据距离99
4.2.2标准化与归一化100
4.2.30-1数据距离和相似度100
4.2.4混合数据的距离102
4.2.5顾客数据的距离102
4.2.6距离和相似度的转换104
4.2.7计算距离的R函数104
4.3层次聚类分析106
4.3.1两类连接106
4.3.2顾客数据的聚类107
4.3.3层次聚类的优点和缺点110
4.4非层次聚类分析110
4.4.1K-mean聚类110
4.4.2PAM聚类112
4.4.3K-mean聚类的优点和缺点113
4.5聚类分析的评价113
4.6R语言实战115
4.6.1欧洲语言的聚类115
4.6.2美国电力公司数据118
4.6.3欧州人蛋白质数据120
4.6.4红酒数据124
4.6.5汽车数据126
4.7本章思维导图128
第5章降维分析129
5.1降维分析介绍130
5.2主成分分析131
5.2.1主成分分析的计算理论132
5.2.2主成分分析的计算步骤134
5.2.3主成分分析的优点和缺点134
5.3R语言程序135
5.4R语言实战138
5.4.1鸢尾花数据138
5.4.2美国罪犯数据138
5.4.3美国法官数据145
5.4.4国家冰球联盟资料146
5.4.5美国职业棒球数据149
5.4.6早餐麦片数据151
5.4.7红酒数据151
5.4.8心理学数据152
5.5本章思维导图154
第三篇监督式学习
第6章模型选择与评价157
6.1模型选择与评价步骤158
6.2大数据的抽样方法159
6.2.1保留方法抽样160
6.2.2自助抽样法162
6.2.3632自助法163
6.2.4过采样1
6.3交验证165
6.3.1k-折交验证165
6.3.2留一交验证166
6.4模型选择167
6.4.1参数和非参数学习168
6.4.2偏差和方差169
6.4.3模型的复杂度170
6.4.4正则化171
6.4.5认真学习和懒惰学习171
6.5模型评价172
6.5.1二元0-1分类器的评价——混淆矩阵172
6.5.2混淆矩阵的举例说明174
6.5.3二元分类器的成本计算176
6.5.4二元分类器例题数据R语言176
6.5.5多标签分类器的评价179
6.5.6多标签分类器评价R语言181
6.5.7交验证分类的评价183
6.5.8分类学习的ROC曲线183
6.5.9连续型目标变量回归模型的评价187
6.6R语言实战189
6.6.1R语言自动调模与调参189
6.6.2汽车数据190
6.6.3乳腺癌诊断数据190
6.7本章思维导图192
第7章回归分析193
7.1多元线性回归194
7.1.1多元线性回归模型194
7.1.2参数估计195
7.1.3适合性检验196
7.1.4实例计算197
7.1.5R语言的实例计算199
7.2变量(特征)选择200
7.2.1偏相关系数200
7.2.2逐步回归203
7.2.3部分子集回归204
7.2.4压缩方法205
7.3Logistic逻辑回归207
7.4R语言实战209
7.4.1股票数据209
7.4.2乳腺癌病理数据210
7.4.3医疗保险数据213
7.4.4棒球数据215
7.4.5波士顿房价数据218
7.4.6皮玛数据221
7.5本章思维导图224
第8章近邻法225
8.1学习器226
8.1.1认真学习器和懒惰学习器226
8.1.2基于实例学习器227
8.1.3参数学习器和非参数学习器228
8.2近邻法介绍229
8.2.1k-近邻法算法步骤229
8.2.2k-近邻法分类器230
8.2.3k-近邻法回归231
8.2.4自变量是分类变量232
8.3近邻法的优点和缺点232
8.4R语言实战233
8.4.1食材数据233
8.4.2鸢尾花数据234
8.4.3乳癌检查数据236
8.4.4美国总统候选人数据238
8.4.5玻璃数据240
8.4.6波士顿房价数据241
8.4.7皮玛数据242
8.5本章思维导图244
第9章贝叶斯分类245
9.1贝叶斯公式246
9.2贝叶斯分类247
9.2.1朴素贝叶斯分类247
9.2.2特征值是连续变量248
9.2.3朴素贝叶斯分类的优点和缺点249
9.3贝叶斯分类的实例计算249
9.3.1天气和打网球249
9.3.2验前概率与似然概率251
9.3.3拉普拉斯校准251
9.3.4R语言实例计算252
9.4R语言实战255
9.4.1泰坦尼克号数据255
9.4.2鸢尾花数据256
9.4.3垃圾邮件数据258
9.4.4皮玛数据261
9.5本章思维导图262
0章决策树263
10.1决策树概述2
10.1.1图形表示2
10.1.2逻辑表示265
10.1.3规则表示265
10.1.4数学公式表示265
10.2决策树的信息计算266
10.2.1信息计算266
10.2.2熵与信息267
10.2.3信息增益267
10.2.4信息增益比268
10.2.5基尼系数与基尼增益268
10.2.6卡方统计量269
10.2.7分枝法则的选择269
10.2.8回归树269
10.3决策树的实例计算270
10.4决策树的剪枝277
10.4.1贪婪算法277
10.4.2决策树剪枝278
10.5决策树的优点和缺点279
10.6R语言实战280
10.6.1决策树R语言包280
10.6.2打网球数据280
10.6.3泰坦尼克号数据283
10.6.4鸢尾花数据284
10.6.5皮玛数据289
10.6.6汽车座椅销售数据292
10.6.7波士顿房价数据295
10.6.8猫数据297
10.6.9驼背数据300
10.6.10美国总统选举投票数据301
10.6.11员工离职数据302
10.7本章思维导图306
1章支持向量机307
11.1支持向量机概述308
11.2大间隔分类(硬间隔)310
11.3支持向量分类(软间隔)311
11.4支持向量机(核函数)313
11.4.1支持向量机的核函数313
11.4.2多元分类支持向量机315
11.5支持向量机的优点和缺点315
11.6支持向量机R语言应用316
11.6.1随机正态分布数据线性核函数317
11.6.2随机正态分布数据径向基核函数318
11.6.3三分类数据径向基核函数321
11.7R语言实战322
11.7.1基因表达数据322
11.7.2鸢尾花数据322
11.7.3猫数据323
11.7.4皮玛数据325
11.7.5字符数据328
11.7.6玻璃数据329
11.8本章思维导图332
2章集成学习333
12.1集成学习介绍334
12.2个别分类方法评价335
12.3Bagging学习337
12.4随机森林338
12.4.1随机森林介绍338
12.4.2随机森林算法步骤339
12.4.3R语言339
12.4.4随机森林的优点和缺点340
12.4.5非监督式学习-鸢尾花数据340
12.4.6美国大学数据341
12.5Boosting学习342
12.6Stacking学习343
12.6.1皮玛数据343
12.6.2员工离职数据344
12.7R语言实战345
12.7.1红酒数据345
12.7.2信用数据347
12.7.3皮玛数据348
12.7.4波士顿房价数据349
12.7.5汽车座椅数据352
12.7.6顾客流失数据353
12.8本章思维导图356
3章推荐系统357
13.1推荐系统概述358
13.2过滤推荐359
13.2.1相似度360
13.2.2基于用户的协同过滤360
13.2.3基于项目的协同过滤361
13.2.4协同过滤的评价362
13.2.5协同过滤的优点和缺点363
13.2.6混合的推荐机制3
13.3R语言应用365
13.3.1推荐系统R语言包365
13.3.2recommenderlab函数程序366
13.3.3模拟数据367
13.4R语言实战369
13.4.1电影数据369
13.4.2笑话数据373
13.5本章思维导图378
结语379
参考文献381