零基础学Python网络爬虫案例实战全流程详解,_王宇韬，吴子湛编著_9787111683681

网络爬虫是当今获取数据不可或缺的重要手段。本书讲解了Python 爬虫的基础知识和必备技能，帮助零基础的读者快速入门并熟练使用爬虫。

全书共8 章。□□ 章讲解Python 开发环境的安装与配置以及Python 的基础语法知识。第□ 章讲解如何运用Requests 库和Selenium 库获取网页源代码。第3 章讲解如何运用正则表达式和BeautifulSoup 库解析和提取数据。第4 章深入讲解Selenium 库在商业实战中的进阶应用。第5 章讲解爬虫数据的处理与可视化。第6 章讲解爬虫数据结构化神器pandas 库，以及如何通过Python 在MySQL 数据库中读写数据。第7 章讲解如何运用多线程和多进程技术提高爬虫效率。第8 章讲解如何运用IP 代理应对网站的反爬机制。

本书对于编程新手来说非常友好，从Python 基础到爬虫原理再到实战应用，循序渐进地帮助读者打好基础。对于有一定Python 爬虫基础的读者，本书也针对实战中常见的疑点和难点提供了解决技巧。

笔者编写的《Python金融大数据挖掘与分析全流程详解》于□019年出版面市后，陆续有不少读者表示对该书的爬虫部分非常感兴趣，想做进一步的学习。笔者由此萌生了一个想法：专门针对Python爬虫技术编写一套书籍，在保留之前核心内容的基础上，新增更多实战案例，方便读者在练中学，并体会Python爬虫在实战中的应用。

书稿编写完成后，为了更好地满足不同水平读者的需求，方便他们根据自身情况更灵活地学习，笔者决定将书稿分为两册出版：□□册为《零基础学Python网络爬虫案例实战全流程详解（入门与提高篇）》，主要针对编程零基础的读者；第二册为《零基础学Python网络爬虫案例实战全流程详解（高级进阶篇）》，主要针对有一定Python爬虫编程基础并且需要进阶提高的读者。

本书为《零基础学Python网络爬虫案例实战全流程详解（入门与提高篇）》，分8章讲解了Python爬虫的基础知识和必备技能，帮助零基础的读者快速入门并熟练使用爬虫。

□□章从Python开发环境的安装与配置讲起，循序渐进地过渡到Python的基础语法知识，包括变量、数据类型、语句、函数与库等，让新手读者能够自己输入简单的代码并使其运行起来。

任何爬虫任务的起点都是获取网页源代码。第□章讲解了Python爬虫中用于获取网页源代码的两个核心库—Requests库和Selenium库，并简单介绍了网页结构和HTML标签的知识，为第3章学习数据的解析与提取做好铺垫。

获取网页源代码后，接着需要从中解析与提取数据。第3章讲解了Python爬虫中解析与提取数据的两种核心方法—正则表达式和BeautifulSoup库，并通过丰富的案例进行实战演练，包括百度新闻、证券日报网、中证网、新浪微博的数据爬取，以及上海证券交易所PDF文件和豆瓣电影海报图片的下载等。

讲解完Python爬虫的基础知识和基本技能，第4章进一步深入讲解爬虫神器Selenium库，并通过案例讲解了商业实战中常用的大量进阶爬虫技术，案例包括新浪财经股票行情数据爬取、东方财富网（股吧、新闻、研报）相关数据爬取、上海证券交易所问询函信息爬取及PDF文件下载、银行间拆借利率爬取、雪球股票评论信息爬取、京东商品评价信息爬取、淘宝天猫商品销量数据爬取、网页自动投票等。

第5章讲解爬虫数据的处理与可视化，包括数据清洗、文本内容过滤、乱码问题处理、舆情评分、中文分词、词云图绘制等，让读者可以对获取的数据进行深入的整理与挖掘。

第6章讲解爬虫数据结构化与数据存储。首先介绍了爬虫数据结构化神器pandas库，并通过多个案例进行实战演练，包括新浪财经资产负债表获取、百度新闻文本数据结构化、百度爱企查股权穿透研究、天天基金网股票型基金信息爬取、集思录可转债信息爬取、东方财富网券商研报信息爬取等。然后介绍了用于存储和管理数据的MySQL数据库，以及如何通过Python在MySQL数据库中读写数据。

第7章讲解如何运用多线程和多进程技术提高爬虫效率，重点分析了线程和进程的概念、多线程和多进程的逻辑，并通过百度新闻的多线程和多进程爬取进行实战演练。

在爬虫任务中□让人烦恼的就是遇到网站的反爬机制，因此，第8章讲解了应对反爬机制的常用手段—IP代理的原理和使用方法，并以爬取微信公众号文章为例对IP代理进行了实战演练。

本书对于编程零基础的读者来说非常友好，从Python基础到爬虫原理再到实战应用，循序渐进地帮助读者打好基础。对于有一定Python爬虫基础的读者，本书也针对实战中常见的疑点和难点提供了解决技巧。

读者如果想进一步学习反爬机制应对、手机App内容爬取、爬虫框架、爬虫云服务器部署等技术，可以阅读《零基础学Python网络爬虫案例实战全流程详解（高级进阶篇）》。

由于笔者水平有限，书中难免有不足之处，恳请广大读者批评指正。读者除了可扫描封底上的二维码关注公众号获取资讯以外，也可通过“本书学习资源”中列出的方法与我们交流。

你还可能感兴趣

我要评论