第 1章 使用第三方库实现信息抓取 1
任务1 使用第三方库实现北京公交站点页面信息抓取 2
1.1.1 介绍爬虫 2
1.1.2 HTTP 5
1.1.3 HTML 9
1.1.4 使用第三方库实现爬虫功能 10
1.1.5 技能实训 14
任务2 使用第三方库实现北京公交站点详细信息抓取 14
1.2.1 lxml库 14
1.2.2 第三方库数据抓取及保存 17
1.2.3 技能实训 19
本章小结 19
本章作业 20
第 2章 初探Scrapy爬虫框架 21
任务1 安装Scrapy爬虫框架并创建爬虫工程 22
2.1.1 根据使用场景划分爬虫种类 22
2.1.2 开发基于Scrapy爬虫框架的工程 25
任务2 学习并掌握Scrapy爬虫框架各模块的功能 30
2.2.1 Scrapy爬虫工程组成 30
2.2.2 Scrapy爬虫框架架构 34
本章小结 36
本章作业 36
第3章 提取网页数据 37
任务1 使用Scrapy的选择器提取豆瓣电影信息 38
3.1.1 Response对象 38
3.1.2 css选择器 42
3.1.3 多层级网页爬取 44
3.1.4 技能实训 49
任务2 使用正则表达式从电影介绍详情中提取指定信息 50
3.2.1 正则表达式 50
3.2.2 技能实训 55
本章小结 55
本章作业 55
第4章 Scrapy数据保存(文件、MySQL、MongoDB) 57
任务一 使用Feed exports将爬取的电影信息保存到常见数据格式文件中 58
4.1.1 Feed exports 58
4.1.2 技能实训 62
任务2 使用pipeline将爬取的电影信息数据保存到数据库中 63
4.2.1 Python操作MySQL数据库 63
4.2.2 pipeline模块 66
4.2.3 将数据保存到MongoDB中 68
4.2.4 技能实训 73
本章小结 73
本章作业 73
第5章 Scrapy反反爬技术 75
任务1 学习反爬虫和反反爬虫策略 76
5.1.1 反爬虫方法和反反爬虫策略 76
5.1.2 Scrapy设置实现反反爬 78
5.1.3 技能实训 85
任务2 学习Scrapy框架中更多常用的设置 86
5.2.1 抓取需要登录的网站 86
5.2.2 Scrapy常用扩展设置 90
本章小结 91
本章作业 91
第6章 Selenium+浏览器加载动态数据 93