Python数据挖掘方法及应用——知识图谱(第2版)
定 价:55 元
- 作者:王术
- 出版时间:2023/7/1
- ISBN:9787121459696
- 出 版 社:电子工业出版社
- 中图法分类:TP311.561
- 页码:236
- 纸张:
- 版次:01
- 开本:16开
本书重点介绍Python语言在数据处理与数据挖掘方面的应用技巧,主要包括数据分析基础知识(数据收集与分析软件、数据挖掘的分析基础、简单数据的统计分析),数据分析高级方法(多元数据的综合分析、时序数据的模型分析),大数据基本处理方法(大数据分析基础应用、文献计量与科研评价、社会网络分析方法、数据分析编程平台)等内容。附录中还提供了Python数据分析相关方法和函数等,方便读者随时查看。本书内容丰富,图文并茂,可操作性强且便于查阅,主要面向数据分析的读者,能有效帮助读者提高数据处理与分析的水平,提升工作效率。书中的例子数据、习题数据及相关代码都可在作者的学习博客http://blog.leanote.com/DaPy下载使用,也可登录华信教育资源网http://www.hxedu.com.cn免费下载。
王术,暨南大学伯明翰大学联合学院助理教授。比利时列日大学(与中国农业科学院联合培养)博士。英国伦敦大学国王学院数据科学硕士,华南华南农业大学经济学学士。研究领域为农业经济、环境经济和能源经济及数据科学等交叉学科的研究。曾受国家留学基金委资助公派留学。发表SCI及中文期刊十余篇,其中第1作者SCI一区论文5篇(分别发表于本专业国际顶级期刊)。编写并出版教材3部,掌握计算机编程语言与软件开发能力,精通R语言和Python数据分析。王斌会,暨南大学管理学院教授,博士生导师。国家和省级一流课程获得者,暨南大学“十佳教学名师”。从事数学、统计学及经济管理教学和科研工作37年,发表科研论文100余篇,完成50多项国家和省部级课题,获省部级以上科技进步奖3项,获省部级以上教学成果奖2项,一流课程4门,教学项目10余项。在数据分析和统计建模领域做了大量的基础性研究与开创性工作。出版相关学术专著3部,出版相关教材10余本,开发计算机软件10余套。精通大数据分析及统计语言的编程及数据处理云计算平台的开发。详情见其网站:www.yuque.com/rstat (www.jdwbh.cn/Rstat)
目录
第1部分 数据挖掘基础
第1章 Python数据挖掘基础 4
1.1 数据挖掘软件简介 5
1.1.1 基本数据挖掘软件 5
1.1.2 Python语言介绍 6
1.2 Anaconda计算包 9
1.2.1 Anaconda的使用 9
1.2.2 Jupyter分析平台 11
1.2.3 Spyder编程平台 15
1.3 Python编程基础 17
1.3.1 Python编程入门 17
1.3.2 Python数据类型 17
1.3.3 Python编程运算 21
1.4 Python程序设计 23
1.4.1 Python数据分析包 24
1.4.2 数值分析包numpy 26
1.4.3 基本绘图包matplotlib 27
数据及练习1 34
第2章 数据挖掘的基本方法 36
2.1 数据收集过程 37
2.1.1 常规数据收集 37
2.1.2 大数据的概念 42
2.1.3 数据管理 46
2.1.4 数据分析包pandas 48
2.2 数据的描述分析 56
2.2.1 基本统计量 56
2.2.2 基于数据框的绘图 61
2.3 数据的透视分析 65
2.3.1 一维频数分析 65
2.3.2 二维集聚分析 67
2.3.3 多维透视分析 72
数据及练习2 74
第3章 数据挖掘的统计基础 76
3.1 均匀分布及其应用 77
3.1.1 均匀分布的概念 77
3.1.2 均匀分布的应用 78
3.2 正态分布及其应用 81
3.2.1 正态分布简介 81
3.2.2 基本统计推断 85
数据及练习3 87
第2部分 数值数据的挖掘
第4章 线性相关与回归模型 90
4.1 两变量相关与回归分析 91
4.1.1 两变量线性相关分析 91
4.1.2 两变量线性回归模型 93
4.2 多变量相关与回归分析 95
4.2.1 多变量线性相关分析 95
4.2.2 多变量线性回归模型 97
数据及练习4 107
第5章 时间序列数据分析 110
5.1 时间序列简介 111
5.1.1 时间序列的概念 111
5.1.2 时间序列的模拟 111
5.1.3 股票数据的分析 113
5.2 时间序列模型的构建 114
5.2.1 ARIMA模型 114
5.2.2 ARMA模型的构建 119
5.2.3 ARMA模型的建立与检验 123
5.3 时间序列模型的应用 129
5.3.1 模型的预处理 130
5.3.2 模型的估计与检验 131
5.3.3 模型的预测分析 133
数据及练习5 133
第6章 多元数据的统计分析 135
6.1 综合评价方法 136
6.1.1 综合评价指标体系 136
6.1.2 综合评价分析方法 138
6.2 主成分分析方法 144
6.2.1 主成分分析方法的基本思想 144
6.2.2 主成分的基本分析 146
6.3 聚类分析方法 151
6.3.1 聚类分析方法的概念 151
6.3.2 系统聚类方法 153
数据及练习6 158
第3部分 文本数据的挖掘
第7章 简单文本处理方法 162
7.1 字符串处理 163
7.1.1 字符串的基本操作 163
7.1.2 字符串查询与替换 164
7.2 简单文本处理 165
7.2.1 文本挖掘的概念 165
7.2.2 文本数据的分词 167
7.3 网络数据的爬虫 170
7.3.1 网页的基础知识 170
7.3.2 Python爬虫步骤 171
7.3.3 爬虫方法的应用 173
数据及练习7 180
第8章 社会网络与知识图谱 182
8.1 社会网络的初步印象 183
8.1.1 社会网络分析概念 183
8.1.2 社会网络分析包 184
8.2 社会网络图的构建 185
8.2.1 社会网络数据形式 185
8.2.2 社会网络统计量 188
8.2.3 美化社会网络图 191
8.3 商业数据知识图谱应用 194
8.3.1 关联规则分析概念入门 194
8.3.2 关联规则分析基础应用 195
8.3.3 关联规则可视化分析 197
8.3.4 大样本关联规则实战 199
数据及练习8 203
第9章 文献计量与知识图谱 204
9.1 文献计量研究的框架 205
9.2 文献数据的收集与分析 206
9.2.1 文献数据的获取 206
9.2.2 文献数据的分析 209
9.3 科研数据的管理与评价 213
9.3.1 科研单位与项目分析 213
9.3.2 科研期刊与作者分析 215
9.3.3 图谱共现矩阵计算 217
9.3.4 共现矩阵的网络图 218
数据及练习9 221
附录 资源共享平台与云计算平台 222
附录A 资源共享平台 222
A1 本书的学习网站 222
A2 本书自定义函数 223
附录B 云计算平台简介 225
B1 课程学习平台 225
B2 习题解答平台 226
参考文献 228