本书主要介绍了大数据的相关背景、大数据基础知识、大数据下的相关编程语言、相关工具框架以及大数据下的其他相关技术等,另外,还对机器学习、神经网络和深度学习等内容进行了介绍,并且对常用的大数据可视化工具进行了阐述。由于大数据、云计算、人工智能有着密不可分的关系,本书既包含了大数据的基础知识,同时也涵盖了大数据下的人工智能以及可视化工具等相关内容,方便读者通过本书了解到大数据以及相关技术的基础知识。本书可以作为本科院校、高等职业院校各专业学生学习大数据基础知识的教材,也可以满足对大数据分析感兴趣的广大读者的学习需求。
魏苗,爱尔兰国立梅努斯大学研究型硕士学位,IBM Watson Health认知方案部门软件工程师、数据科学家,曾任机器学习客座讲师,在数据结构和算法、软件测试等多门课程任教,主要研究领域包括自然语言处理,机器学习和深度学习。
目 录
1.1 大数据的产生 ............................................................................1
1.1.1.天文学——信息爆炸的起源 ...................................... 3
1.1.2.大数据产生的背景......................................................4
1.2 大数据与可视化 .......................................................................9
1.2.1.数据可视化的概念和意义 .......................................... 9
▲
1.2.2.打造最好的可视化效果 ............................................ 11
1.2.3.数据可视化的运用.................................................... 12
1.3 人工智能和大数据的关系 ......................................................13
1.4 大数据的相关技术 ..................................................................22
1.4.1.数据挖掘 ................................................................... 22
1.4.2.机器学习 ................................................................... 26
▲
1.4.3.神经网络 ................................................................... 29
第 2章大数据概述 ...................................................... 37
2.1 数据处理与大数据 ..................................................................37
2.1.1.古典数据处理案例.................................................... 38
2.1.2.现代数据处理案例.................................................... 39
2.2 什么是大数据 ..........................................................................40
2.3 大数据工作流程 ......................................................................41
▲
2.3.1.数据收集 ................................................................... 42
2.3.2.数据处理 ................................................................... 43
2.3.3.知识生成 ................................................................... 45
2.3.4.数据存储 ................................................................... 46
2.4 大数据来源 ..............................................................................47
2.4.1.互联网以及线上金融数据 ........................................ 48
2.4.2.社交平台数据............................................................ 49
2.4.3.传感器数据................................................................ 51
2.4.4.企业管理数据............................................................ 52
2.5 大数据特征 ..............................................................................52
2.5.1.大数据的基本特征:3V............................................ 53
2.5.2.大数据新增特征:4V ............................................... 55
2.5.3.IBM对于大数据的解读:5V ................................... 56
2.6 大数据基本架构设计原理 ......................................................58
第 3章大数据相关开发语言........................................63
3.1 Python语言 .............................................................................64
3.1.1.Python的历史 ........................................................... 64
3.1.2.Python的特点 ........................................................... 65
3.1.3.Python的版本与区别................................................ 66
3.1.4.Python的安装步骤 ................................................... 68
3.1.5.Python的基本用法 ................................................... 70
3.1.6.Python的常用库 ....................................................... 74
3.1.7.Python实际运用案例 ............................................... 76
3.1.8.Python金融数据分析实例........................................ 81
▲
3.2 R语言 ......................................................................................84
3.2.1.R语言简介 ............................................................... 84
3.2.2.R语言的特性 ........................................................... 85
3.2.3.R语言的安装 ........................................................... 86
3.2.4.R语言工具库的加载................................................ 87
3.2.5.R语言实际运用案例................................................ 88
3.3 分布式计算框架 ......................................................................91
3.3.1.大数据所带来的挑战 ................................................ 92
3.3.2.Hadoop概述.............................................................. 92
3.3.3.Hadoop的发展历史 .................................................. 93
3.3.4.Hadoop框架组件...................................................... 95
第 4章大数据的相关技术 ........................................... 99
4.1 云计算 ......................................................................................99
4.1.1.什么是云计算............................................................ 99
4.1.2.云计算的服务层面.................................................. 100
4.2 人工智能 ................................................................................101
4.3 机器学习 ................................................................................104
4.3.1.机器学习的原因...................................................... 105
4.3.2.机器学习的定义...................................................... 106
4.3.3.机器学习算法的分类 .............................................. 107
4.3.4.机器学习问题领域.................................................. 109
4.3.5.机器学习的一般步骤 .............................................. 110
4.3.6.模型评价指标.......................................................... 113
4.3.7.现实中的分类问题以及 KNN算法........................ 116
4.3.8.机器学习实例.......................................................... 118
4.4 神经网络和深度学习 ............................................................124
4.4.1.神经网络 ................................................................. 124
4.4.2.深度学习 ................................................................. 128
4.5 大数据可视化工具 ................................................................133
4.5.1.Matplotlib................................................................. 134
4.5.2.Excel......................................................................... 136
4.5.3.百度 ECharts............................................................ 148
4.5.4.Tableau..................................................................... 149
第 5章大数据分析应用案例:通过社交媒体对市场进行分析........................................................ 151
5.1 社交媒体非结构化大数据的背景 ........................................152
5.2 社交媒体大数据情绪分析 ....................................................156
5.2.1.情绪分析的概念...................................................... 156
5.2.2.情绪分析的步骤...................................................... 157
▲▲
5.2.3.情绪分析实际案例.................................................. 158
5.3 使用社交媒体大数据对市场结构进行分析 ........................160
5.3.1.市场结构及分析...................................................... 160
5.3.2.品牌联想网络.......................................................... 163
5.3.3.文本挖掘技术.......................................................... 165
5.3.4.市场结构分析步骤.................................................. 166
参考文献....................................................................... 171