大数据应用与实训教程(新编21世纪高等职业教育精品教材·电子与信息类)
定 价:35 元
丛书名:新编21世纪高等职业教育精品教材·电子与信息类
- 作者:于晓荷 辛向丽
- 出版时间:2023/7/1
- ISBN:9787300318875
- 出 版 社:中国人民大学出版社
- 中图法分类:TP274
- 页码:148
- 纸张:
- 版次:1
- 开本:16
本书基于具有实用性和普适性的案例来编写,将数据的收集、获取、预处理、分析与可视化贯穿其中。根据当前高职高专教学实际需要,结合企业实际需求,采用“理实结合”的思路,以“案例导入”的形式详细介绍了大数据实训项目。包括使用requests 库获取天气信息,然后通过JupyterNotebook进行分析处理;使用Scrapy 框架分页获取诗词网站的信息,使用jieba 库对诗词的内容进行分词,然后在JupyterNotebook 中对文本数据进行处理;在Pycharm 中编写代码获取店面信息,然后在JupyterNotebook 中对信息进行数据聚合与分组;使用requests 库获取页面的HTML 标签,使用XPath 路径表达式获取解析之后的首页面的数据信息,再使用循环语句获取所有页面的数据信息。
于晓荷,北京政法职业学院信息媒体学院教师,主要讲授的课程有《Python大数据分析及应用》《Python技术基础》、《静态网页设计与制作》等。主编或参编的教材有《Dreamweaver网页设计案例教程》《网页设计与制作Dreamweaver CS3》《办公自动化案例教程》《ASP.NET动态网页设计案例教程C#版》和《 NUKE影视后期合成技能》。多次带领学生参加技能大赛获得佳绩,本人获评国赛优秀指导教师称号。
项目一 大数据分析开发环境的搭建
知识链接
一、数据分析的概念
二、数据分析的应用
三、数据分析的流程
四、数据分析前的准备
项目实施
一、Python 的下载及安装
二、Pycharm 的下载及安装
三、Anaconda 的下载及安装
四、Jupyter Notebook 的使用
项目拓展
一、插件的安装
二、常用的插件
项目二 Beautiful Soup 库和Matplotlib 库的使用
知识链接
一、Requests 库
二、Beautiful Soup 库
三、Pandas 库的concat() 函数
四、数据的聚合与分组运算
五、Matplotlib 库
六、bar() 函数
七、plot() 函数
项目实施
一、新建项目
二、安装Requests 库
三、使用Requests 库获取页面HTML 标签
四、使用Beautiful Soup 库对页面进行解析
五、将获取的信息保存为csv 格式文件
六、在Jupyter 中处理数据并进行可视化分析
项目拓展
一、find_all() 方法速查表(见表2 - 2)
二、find() 方法速查表(见表2 - 3)
三、select() 方法速查表(见表2 - 4)
四、其他方法
五、HTML 速查表(见表2 - 6)
项目三 Scrapy 框架与Matplotlib 库中bar 函数的使用
知识链接
一、Scrapy 框架
二、jieba 库
三、Matplotlib 库中pyplot 模块的bar 函数
项目实施
一、创建Scrapy 项目
二、创建爬虫文件
三、参数配置
四、编写爬虫文件,获取第1 页的20 条诗词信息
五、分页信息的获取
六、爬取信息的保存
七、在Jupyter 中处理文本并进行可视化分析
项目拓展
一、创建Scrapy 项目和爬虫文件
二、配置settings.py 文件
三、编写items.py 文件
四、编写pipelines.py 文件
五、编写爬虫文件
项目四 Selenium 库和Matplotlib 库的使用
知识链接
一、Selenium 库
二、Selenium 库的常用操作
三、Pandas 库的sort_values() 函数
四、Matplotlib 库的pie() 函数
五、使用loc 和iloc 进行索引
项目实施
一、新建项目
二、安装Selenium 库
三、下载Chrome 浏览器和浏览器驱动
四、使用Selenium 库获取第1 页的文本信息
五、获取前3 个页面的页面文本信息
六、将获取的信息保存为csv 格式文件
七、在Jupyter 中处理数据并进行可视化分析
项目五 XPath 和Matplotlib 库中barh 函数的使用
知识链接
一、lxml 库
二、XPath
三、Xpath 的路径表达式
四、Matplotlib 库的barh() 函数
项目实施
一、新建项目
二、安装lxml 库和requests 库
三、使用requests 库获取第一页的HTML 标签信息
四、用etree 模块的HTML() 方法对获取的标签进行解析
五、使用XPath 提取解析后的HTML 中的文本信息
六、获取所有页面的信息
七、将获取的信息保存为csv 格式文件
八、在Jupyter 中处理数据并进行可视化分析
项目六 pyecharts 库的使用
知识链接 1
一、pyecharts 概述
二、柱状图的绘制
三、折线图的绘制
四、饼图和环形图的绘制
五、多图叠加
项目实施
一、使用柱状图可视化“平均每股收益(元)”和“平均每股净资产(元)
二、 使用柱状图与折线图对“营业收入(元)”“营业成本(元)”
“ 营业利润(元)”进行数据可视化分析
三、使用饼图可视化2018 至2021 年的毛利率
项目拓展
一、其他类型图表的绘制
二、组合图的创建