为了适应数字经济时代的新发展趋势,培养新时代大数据专业人才,编者通过总结多年的教学经验,借鉴国内外相关领域的教学优势,详细剖析大数据采集、预处理与可视化的基础理论、关键技术、相关工具和应用案例,进而编成本书。
本书是集理论与实践于一体的应用型教材。全书共7章,包括大数据概述、Python程序设计、大数据采集、大数据预处理技术、Excel数据获取与预处理、Python数据预处理、数据可视化技术。本书在编写中着重介绍基本原理,同时突出工程应用,并以清晰、容易理解的方式展现大数据采集、预处理与可视化的基础知识、基本任务、常用方法、实用场景和主要流程,力图做到基本概念准确、阐述条理清晰、主体内容精练、重点难点突出、理论联系实际。此外,本书还将反映相关领域新技术的发展情况。
本书可作为计算机、人工智能、大数据、电子商务、电气、电子、统计学、会计学等相关专业的大数据技术类课程的教材,也可供相关领域的科技人员参考使用,还可作为数据分析及应用类认证培训课程用书。
(1)知识讲解宜读易懂,语言表述顺畅自然。
讲述大数据技术中通用的基础知识,为读者进一步研究理论和应用技术打下坚实的基础。基本概念清晰、准确、精练,语言表述顺畅、宜读、自然,尽量避免使用晦涩难懂的语言描述深奥的理论和技术知识。
(2)系统构建知识体系,培养读者的大数据思维。
建立恰当的知识体系,并把相关知识进行合理组织,而不是杂乱无章地堆砌。注重大数据技术的科学分析,有利于培养读者的大数据思维。
(3)理论与实践相结合,注重培养实战型人才。
针对大数据技术的相关应用,通过对典型实例进行分析,读者能够深入且全面地理解并掌握大数据技术的具体应用方法,进而提高自身独立分析问题和解决问题的能力。
(4)配套丰富教辅资源,立体化服务高校人才培养。
为了更好地服务院校教学,助力大数据领域工程型人才培养,编者为本书配套打造了多种教辅资源,如课程 PPT、教学大纲、教案、源代码、案例包、课后习题答案、微课视频等,选用本书的教师可以到人邮教育社区(www.ryjiaoyu.com)下载相关资源。
葛继科:
西南大学博士,加拿大麦吉尔大学博士后出站,重庆科技学院教授,硕士研究生导师。主要从事人工智能、大数据应用、网络安全等方面的教学与研究工作。主讲课程包括:大数据平台与应用、大数据分析与挖掘、大数据采集与优化、人工智能、计算机网络、网络安全技术等。主持省部级教学质量工程项目1项,主持省部级教改重点项目2项、一般项目1项、产学合作育人项目9项、校级教改项目4项,发表教改论文8篇。获省部级教学成果二等奖1项、校级教学成果二等奖2项。主持省部级科研项目7项,参与国家级科研项目3项、省部级5项;发表学术论文30余篇,其中SCI收录4篇、EI收录20篇、中文核心3篇,授权发明专利6项。出版教学著作《计算机网络安全技术应用探究》1部,主编《油田大数据应用技术》(石油工业出版社,2021年)、《量子人工智能引论》(西南师范大学出版社,2021年)等学术著作。
【章名目录】
第 1章 大数据概述
第2章 Python程序设计
第3章 大数据采集
第4章 大数据预处理技术
第5章 Excel数据获取与预处理
第6章 Python数据预处理
第7章 数据可视化技术
【详细目录】
第 1章 大数据概述
1.1 大数据时代 1
1.2 大数据的相关概念及特征 2
1.2.1 大数据的概念 2
1.2.2 大数据的发展历程 3
1.2.3 大数据的特征 5
1.2.4 大数据的作用 6
1.2.5 大数据的应用领域 7
1.2.6 大数据的关键技术 8
1.3 大数据系统简介 9
1.3.1 Hadoop生态系统 9
1.3.2 Spark生态系统 12
1.4 大数据思维 15
1.4.1 传统思维方式 15
1.4.2 大数据思维方式 16
1.5 大数据伦理 17
1.5.1 大数据伦理的由来 17
1.5.2 大数据的伦理问题 18
1.5.3 大数据的伦理原则 21
1.6 大数据安全 22
1.6.1 数据全生命周期安全 22
1.6.2 大数据安全防护技术 23
1.7 本章小结 24
1.8 习题 24
第2章 Python程序设计
2.1 Python的安装与运行 25
2.1.1 Python的特点 25
2.1.2 Python的下载与安装 26
2.1.3 Python程序的运行 27
2.1.4 第三方软件包的安装 29
2.1.5 Python编程规范 31
2.2 数据类型与运算符 33
2.2.1 数字和字符串 33
2.2.2 列表和元组 38
2.2.3 字典和集合 42
2.2.4 运算符 44
2.3 程序控制结构 47
2.3.1 程序流程图 47
2.3.2 顺序结构 48
2.3.3 选择结构 49
2.3.4 循环结构 51
2.4 函数与模块 54
2.4.1 函数的使用 54
2.4.2 函数的参数传递 55
2.4.3 全局变量与局部变量 57
2.4.4 匿名函数 58
2.4.5 模块 59
2.5 文件 60
2.5.1 文件的打开与关闭 60
2.5.2 文件的读取与写入 62
2.5.3 文件的定位 63
2.6 本章小结 63
2.7 习题 64
第3章 大数据采集
3.1 大数据采集概述 65
3.1.1 大数据采集的概念 65
3.1.2 大数据采集的数据源 66
3.1.3 大数据采集方法 67
3.1.4 大数据采集平台 69
3.2 网络爬虫技术 71
3.2.1 网络爬虫概述 72
3.2.2 常用网络爬虫方法 72
3.2.3 网页数据采集的实现 75
3.2.4 常用网络爬虫工具 78
3.2.5 电影评论爬取 82
3.3 数据抽取技术 85
3.3.1 数据抽取概述 85
3.3.2 Kettle简介与其安装 86
3.3.3 文本数据抽取 87
3.3.4 网页数据抽取 89
3.4 案例:网络租房信息采集 91
3.4.1 网络爬虫采集数据 91
3.4.2 抽取租房信息 94
3.5 本章小结 96
3.6 习题 96
第4章 大数据预处理技术
4.1 数据预处理概述 97
4.1.1 数据质量 97
4.1.2 数据预处理的主要任务 99
4.2 数据清洗 99
4.2.1 缺失值处理方法 99
4.2.2 噪声数据处理方法 101
4.2.3 冗余数据处理方法 105
4.2.4 数据格式与内容处理方法 106
4.3 数据集成 106
4.3.1 实体识别问题 106
4.3.2 冗余问题 107
4.3.3 数据值冲突的检测与处理 109
4.4 数据变换 110
4.4.1 数据规范化 110
4.4.2 通过离散化变换数据 112
4.5 数据归约 113
4.5.1 过滤法 114
4.5.2 包装法 115
4.5.3 嵌入法 116
4.6 数据脱敏 117
4.6.1 数据脱敏类型 117
4.6.2 数据脱敏方法 118
4.7 案例:汽车行驶工况数据预处理 119
4.7.1 案例背景 119
4.7.2 数据描述 119
4.7.3 数据预处理 120
4.8 本章小结 124
4.9 习题 125
第5章 Excel数据获取与预处理
5.1 Excel数据获取 126
5.1.1 获取文本数据 126
5.1.2 获取网站数据 128
5.1.3 获取数据库中的数据 130
5.2 Excel数据清洗与转换 132
5.2.1 常用数据分析函数 132
5.2.2 删除重复行 136
5.2.3 文本查找与替换 137
5.2.4 字符串截取 139
5.2.5 数据的转置 140
5.2.6 数据的查询和引用 140
5.2.7 字母与数字的转换 142
5.3 Excel数据抽取与合并 143
5.3.1 值的抽取 144
5.3.2 数据合并 146
5.3.3 字段合并 147
5.4 案例:房价行情的对比分析 148
5.4.1 数据获取 148
5.4.2 数据预处理与分析 149
5.5 本章小结 151
5.6 习题 151
第6章 Python数据预处理
6.1 Python数据预处理基础 153
6.1.1 科学计算库NumPy 153
6.1.2 数据分析库pandas 160
6.2 数据的分组、分割、合并和变形 168
6.2.1 数据分组 168
6.2.2 数据分割 171
6.2.3 数据合并 172
6.2.4 数据变形 175
6.3 缺失值、异常值和重复值处理 177
6.3.1 缺失值处理 177
6.3.2 异常值处理 181
6.3.3 重复值处理 185
6.4 时间序列数据处理 185
6.4.1 时间序列的基本操作 186
6.4.2 固定频率的时间序列 187
6.4.3 时间周期及其计算 188
6.5 文本数据分析 189
6.5.1 字符串处理方法 189
6.5.2 文本数据分析工具 191
6.5.3 正则表达式 194
6.5.4 文本预处理 196
6.6 案例:IMDb5000电影数据预处理 199
6.6.1 数据分析及代码实现 199
6.6.2 完整代码 201
6.7 本章小结 203
6.8 习题 203
第7章 数据可视化技术
7.1 数据可视化概述 205
7.1.1 数据可视化的定义 205
7.1.2 数据可视化的发展历程 206
7.1.3 数据可视化的作用 211
7.2 数据可视化的理论基础 212
7.2.1 数据可视化的流程 212
7.2.2 数据可视化的设计要素 213
7.2.3 数据可视化的基础图表 216
7.2.4 数据可视化的常见工具 219
7.3 Python数据可视化方法 221
7.3.1 Matplotlib绘制基础图表 221
7.3.2 seaborn绘制统计图 229
7.3.3 wordcloud绘制词云图 254
7.3.4 NetworkX绘制网络图 257
7.3.5 案例:重庆公开庭审数据可视化 260
7.4 pyecharts数据可视化方法 265
7.4.1 pyecharts简介 265
7.4.2 pyecharts应用 266
7.4.3 案例:2020年东京奥运会奖牌看板 267
7.5 本章小结 278
7.6 习题 279
参考文献 280