《Linux系统与大数据应用》主要内容包括Linux基本命令,大数据主要框架Hadoop的搭建和应用,Spark框架的应用,大数据科学计算、Python语言、网络爬虫分析等主要大数据分析应用的工具等。本书分别从系统使用者、网络管理者、shell程序开发者、应用程序开发者和内核开发者的角度,全方位地介绍Linux操作环境、操作命令,以及基本的开发方法;同时,本书面向大数据应用的开发者,介绍基于Linux系统的大数据计算平台、存储平台,以及几个广泛使用的应用开发和分析工具;之后是综合案例和应用,使读者初步认识Linux,熟练使用shell 命令,掌握系统管理原理,熟悉基于Linux的大数据开发平台,并学会几种典型的大数据存储和开发方法。
《Linux系统与大数据应用》既可作为高等学校计算机软件技术课程的教材,也可作为管理信息系统开发人员的技术参考书。
配套资源:电子课件、课后习题答案、源代码
本书特色:
1.各个章节穿插了很多案例,提供了大数据应用开发从入门到实际应用所必备的知识。
2.每章都配备有课后习题,并且每章都有综合案例和实验的题目。
3.本书中所介绍的实例都已在Windows 10操作系统下调试运行通过。
随着云时代的来临,大数据(Big Data)也受到了越来越多的关注。《着云台》的分析师团队认为,大数据通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的计算机分配工作。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。大数据在物理学、生物学、环境生态学等领域以及军事、金融、通信等行业存在已有时日,却因为近年来互联网和信息行业的发展而引起人们的关注。
大数据作为时下最火热的IT行业的词汇,随之而来的数据仓库、数据安全、数据分析、数据挖掘等围绕大数据商业价值的利用逐渐成为行业人士争相追捧的利润焦点。随着大数据时代的来临,大数据分析也应运而生,大数据分析是指对规模巨大的数据进行分析。大数据可以概括为5个V,即数据量(Volume)大、速度(Velocity)快、类型(Variety)多、价值(Value)、真实性(Veracity)。
本书围绕大数据应用开发基础,在内容的编排上力争体现新的教学思想和方法。本书内容编写遵循从简单到复杂从抽象到具体的原则。书中通过各个章节穿插了很多案例,提供了大数据应用开发从入门到实际应用所必备的知识。Linux编程基础、Linux 系统用户与组管理、Linux系统编辑器和软件安装、Linux系统网络及其服务配置、大数据挖掘的shell基础、Linux系统下的Python基础、大数据开发平台、大数据应用开发工具和大数据应用与案例,学生除了要在课堂上学习程序设计的理论方法,掌握编程语言的语法知识和编程技巧外,还要进行大量的课外练习和实践操作。为此本书每章都配备有课后习题,并且每章都有一个综合案例,除此之外,每章节还安排了实验的题目,可供教师实验教学使用。
本书共分10章。第1章是Linux系统概述,第2章介绍Hadoop平台常用的Linux命令,第3章介绍Linux 系统用户与组管理,第4章介绍Linux系统编辑器和软件安装,第5章介绍Linux系统网络及其服务配置,第6章介绍大数据挖掘的shell基础,第7章介绍Linux系统下的Python基础,第8章介绍大数据开发平台,第9章介绍大数据应用开发工具,第10章介绍大数据应用与案例。
本书内容全面,案例新颖,针对性强。本书中所介绍的实例都已在Windows 10操作系统下调试运行通过。从应用程序的设计到应用程序的发布,读者都可以按照书中所讲述内容实施。作为教材,每章均附有习题。
本书由夏辉负责书的整体策划,并负责编写第8和10章,杨伟吉老师负责编写第4和6章,金鑫老师负责编写第2、5和7章,李淑霞老师负责编写第1、3和9章,李强负责所有实验的编写和审核,刘澍老师负责编写课后习题、制作电子课件,并最终完成全文书稿的修订、完善、统稿和定稿工作,参与本书编写的还有王学颖、吴鹏。本书由王学颖教授承担内容的主审工作,吴鹏博士为本书编写提供了技术支持和帮助,并且对本书初稿在教学过程中存在的问题提出了宝贵的意见。本书也借鉴了中外参考文献中的原理知识和资料,在此一举感谢。
本书配有电子课件、课后习题答案、每章节案例代码、实验代码,以方便教学和自学参考使用,如有需要请到http://www.cmpedu.com下载。
由于时间仓促,书中难免存在不妥之处,敬请读者原谅,并提出宝贵意见。
前言
第1章 Linux系统概述
1.1 认识Linux系统
1.1.1 Linux系统版本
1.1.2 文件与目录
1.2 Linux系统的发展
1.2.1 早期的Linux系统
1.2.2 Linux系统发展
1.2.3 Linux系统举例
1.2.4 Linux基本思想和特征
1.3 Ubuntu介绍
1.3.1 Ubuntu概述
1.3.2 Ubuntu的版本与应用
1.3.3 Ubuntu下载安装
1.3.4 Ubuntu评价
1.4 Linux系统下大数据平台
1.4.1 Linux系统下大数据平台介绍
1.4.2 Linux系统下大数据平台架构
1.4.3 大数据平台发展前景
1.5 本章小结
实践与练习
第2章 Hadoop平台常用的Linux命令
2.1 文件和目录
2.1.1 Ubuntu系统目录结构
2.1.2 创建/删除目录
2.1.3 查看文件
2.1.4 查看路径
2.1.5 tree命令
2.2 文件操作
2.2.1 创建文件
2.2.2 查看文件内容
2.2.3 清屏
2.3 帮助和历史
2.3.1 help命令
2.3.2 man命令
2.3.3 自动补全Tab
2.3.4 查看历史history
2.4 文件的其他操作
2.4.1 复制/剪切命令
2.4.2 重命名
2.4.3 重定向
2.4.4 管道命令
2.4.5 链接快捷方式
2.4.6 文件搜索
2.4.7 压缩文件和解压缩
2.5 系统常用操作
2.5.1 日历cal
2.5.2 时间date
2.5.3 进程操作
2.5.4 系统状态查看和操作
2.6 本章小结
实践与练习
第3章 Linux系统用户与组管理
3.1 用户与组账号
3.1.1 添加账号
3.1.2 切换账号
3.1.3 远程登录
3.2 超级用户root
3.2.1 切换超级用户
3.2.2 加入用户组
3.2.3 退出
3.3 用户操作权限
3.3.1 文件权限管理概述
3.3.2 修改权限
3.4 系统的安全性
3.4.1 账号的安全性
3.4.2 常见漏洞的安全性
3.4.3 SELinux
3.5 应用案例:Hadoop集群创建的用户
3.6 本章小结
实践与练习
第4章 Linux系统编辑器和软件安装
4.1 Linux主要编辑器介绍
4.1.1 gedit编辑器
4.1.2 vim编辑器
4.2 HTTP Server的介绍和安装
4.2.1 Apache HTTP Server
4.2.2 安装与配置实例
4.3 Linux大数据包导入库
4.3.1 pip安装
4.3.2 自带工具
4.3.3 导入大数据计算库
4.4 应用案例:Hadoop集群修改配置文件
4.5 本章小结
实践与练习
第5章 Linux系统网络及其服务配置
5.1 网络配置
5.1.1 IP地址查看和配置
5.1.2 SSH和Telnet
5.1.3 SSH工具
5.2 Xshell工具
5.2.1 服务器配置与连接
5.2.2 客户端与服务器通信
5.3 FTP服务器
5.3.1 FTP服务器简介
5.3.2 FTP服务器安装配置
5.4 Samba服务器
5.4.1 Samba简介
5.4.2 安装与配置实例
5.5 Apache Web服务器
5.5.1 Apache Web服务器简介
5.5.2 Apache Web服务器安装与配置
5.5.3 虚拟主机配置
5.6 应用案例:Hadoop平台的网络和服务器配置
5.7 本章小结
实践与练习
第6章 大数据挖掘的shell基础
6.1 大数据开发的shell基础
6.2 shell的模式和类型
6.2.1 shell的运行模式
6.2.2 shell的类型
6.3 shell编程
6.3.1 bash简介
6.3.2 shell命令行
6.3.3 shell脚本语句和命令
6.4 应用案例:shell编程的数据挖掘
6.5 本章小结
实践与练习
第7章 Linux系统下的Python基础
7.1 Linux中的Python
7.2 Python基础
7.2.1 基本数据类型
7.2.2 流程控制语句
7.3 Python函数
7.4 Python类和对象
7.4.1 面向对象
7.4.2 类和对象
7.4.3 构造函数
7.4.4 继承
7.5 文件的操作
7.6 Python的类库
7.7 应用案例:数据挖掘相关Python类库应用
7.8 其他相关知识
7.9 本章小结
实践与练习
第8章 大数据开发平台
8.1 大数据开发平台简介
8.1.1 大数据的应用与前景
8.1.2 Hadoop简介
8.2 Hadoop框架介绍
8.2.1 Hadoop框架及组件介绍
8.2.2 Hadoop的核心组件
8.2.3 Hadoop的安全性
8.3 Hadoop安装与配置
8.3.1 下载安装Hadoop
8.3.2 Hadoop配置
8.3.3 词频统计示例
8.4 Spark简介
8.4.1 Spark特点
8.4.2 Spark生态系统
8.5 Spark安装与配置
8.5.1 下载与安装Spark
8.5.2 Spark集群配置
8.6 本章小结
实践与练习
第9章 大数据应用开发工具
9.1 数据抽取ETL
9.1.1 ETL概述
9.1.2 ETL工具
9.1.3 网络爬虫技术及应用
9.2 Hbase原理和模型
9.2.1 Hbase安装和部署
9.2.2 Hbase应用
9.2.3 Hbase优化和存储
9.3 Hive基础与应用
9.3.1 Hive安装
9.3.2 Hive数据模型和查询语言
9.3.3 Hive数据分析
9.4 本章小结
实践与练习
第10章 大数据应用与案例
10.1 数据挖掘工具和主要算法
10.1.1 Mahout安装和配置
10.1.2 K-Means算法和Canopy算法
10.1.3 贝叶斯算法
10.2 Hadoop应用案例:World count词频统计案例
10.2.1 实训目的和要求
10.2.2 运用
10.3 Spark应用案例:Spark进行电商数据检索
10.3.1 实训目的和要求
10.3.2 运用
10.4 本章小结
实践与练习
参考文献