网络爬虫是当今获取数据不可或缺的重要手段。本书讲解了Python 爬虫的基础知识和必备技能,帮助零基础的读者快速入门并熟练使用爬虫。
全书共8 章。□□ 章讲解Python 开发环境的安装与配置以及Python 的基础语法知识。第□ 章讲解如何运用Requests 库和Selenium 库获取网页源代码。第3 章讲解如何运用正则表达式和BeautifulSoup 库解析和提取数据。第4 章深入讲解Selenium 库在商业实战中的进阶应用。第5 章讲解爬虫数据的处理与可视化。第6 章讲解爬虫数据结构化神器pandas 库,以及如何通过Python 在MySQL 数据库中读写数据。第7 章讲解如何运用多线程和多进程技术提高爬虫效率。第8 章讲解如何运用IP 代理应对网站的反爬机制。
本书对于编程新手来说非常友好,从Python 基础到爬虫原理再到实战应用,循序渐进地帮助读者打好基础。对于有一定Python 爬虫基础的读者,本书也针对实战中常见的疑点和难点提供了解决技巧。
本书讲解了Python 爬虫的基础知识和必备技能,帮助零基础的读者快速入门并熟练使用爬虫。本书囊括了媒体热点采集、金融数据爬取、网络文件下载、电商数据研究等四大类4□个爬虫实战案例,共计3000余行代码,涉及17个网站的数据与文件获取,详解了Requests 库、Selenium 库、正则表达式、BeautifulSoup 库、多线程多进程爬虫、IP 反爬机制应对等知识。
笔者编写的《Python金融大数据挖掘与分析全流程详解》于□019年出版面市后,陆续有不少读者表示对该书的爬虫部分非常感兴趣,想做进一步的学习。笔者由此萌生了一个想法:专门针对Python爬虫技术编写一套书籍,在保留之前核心内容的基础上,新增更多实战案例,方便读者在练中学,并体会Python爬虫在实战中的应用。
书稿编写完成后,为了更好地满足不同水平读者的需求,方便他们根据自身情况更灵活地学习,笔者决定将书稿分为两册出版:□□册为《零基础学Python网络爬虫案例实战全流程详解(入门与提高篇)》,主要针对编程零基础的读者;第二册为《零基础学Python网络爬虫案例实战全流程详解(高级进阶篇)》,主要针对有一定Python爬虫编程基础并且需要进阶提高的读者。
本书为《零基础学Python网络爬虫案例实战全流程详解(入门与提高篇)》,分8章讲解了Python爬虫的基础知识和必备技能,帮助零基础的读者快速入门并熟练使用爬虫。
□□章从Python开发环境的安装与配置讲起,循序渐进地过渡到Python的基础语法知识,包括变量、数据类型、语句、函数与库等,让新手读者能够自己输入简单的代码并使其运行起来。
任何爬虫任务的起点都是获取网页源代码。第□章讲解了Python爬虫中用于获取网页源代码的两个核心库—Requests库和Selenium库,并简单介绍了网页结构和HTML标签的知识,为第3章学习数据的解析与提取做好铺垫。
获取网页源代码后,接着需要从中解析与提取数据。第3章讲解了Python爬虫中解析与提取数据的两种核心方法—正则表达式和BeautifulSoup库,并通过丰富的案例进行实战演练,包括百度新闻、证券日报网、中证网、新浪微博的数据爬取,以及上海证券交易所PDF文件和豆瓣电影海报图片的下载等。
讲解完Python爬虫的基础知识和基本技能,第4章进一步深入讲解爬虫神器Selenium库,并通过案例讲解了商业实战中常用的大量进阶爬虫技术,案例包括新浪财经股票行情数据爬取、东方财富网(股吧、新闻、研报)相关数据爬取、上海证券交易所问询函信息爬取及PDF文件下载、银行间拆借利率爬取、雪球股票评论信息爬取、京东商品评价信息爬取、淘宝天猫商品销量数据爬取、网页自动投票等。
第5章讲解爬虫数据的处理与可视化,包括数据清洗、文本内容过滤、乱码问题处理、舆情评分、中文分词、词云图绘制等,让读者可以对获取的数据进行深入的整理与挖掘。
第6章讲解爬虫数据结构化与数据存储。首先介绍了爬虫数据结构化神器pandas库,并通过多个案例进行实战演练,包括新浪财经资产负债表获取、百度新闻文本数据结构化、百度爱企查股权穿透研究、天天基金网股票型基金信息爬取、集思录可转债信息爬取、东方财富网券商研报信息爬取等。然后介绍了用于存储和管理数据的MySQL数据库,以及如何通过Python在MySQL数据库中读写数据。
第7章讲解如何运用多线程和多进程技术提高爬虫效率,重点分析了线程和进程的概念、多线程和多进程的逻辑,并通过百度新闻的多线程和多进程爬取进行实战演练。
在爬虫任务中□让人烦恼的就是遇到网站的反爬机制,因此,第8章讲解了应对反爬机制的常用手段—IP代理的原理和使用方法,并以爬取微信公众号文章为例对IP代理进行了实战演练。
本书对于编程零基础的读者来说非常友好,从Python基础到爬虫原理再到实战应用,循序渐进地帮助读者打好基础。对于有一定Python爬虫基础的读者,本书也针对实战中常见的疑点和难点提供了解决技巧。
读者如果想进一步学习反爬机制应对、手机App内容爬取、爬虫框架、爬虫云服务器部署等技术,可以阅读《零基础学Python网络爬虫案例实战全流程详解(高级进阶篇)》。
由于笔者水平有限,书中难免有不足之处,恳请广大读者批评指正。读者除了可扫描封底上的二维码关注公众号获取资讯以外,也可通过“本书学习资源”中列出的方法与我们交流。