前言 自从20世纪80年代末Python语言诞生至今,它已被广泛应用于处理系统管理任务和科学计算等领域,是颇受欢迎的程序设计语言。 因为Python 的语法简洁易读,让众多编程入门者不再望而却步,所以各行各业的技术人员都开始将其 用于Web开发、爬虫、数据清洗、自然语言处理、机器学习和人工智能等方面。其中,网络爬虫所需的获取、存储、整理等流程都可以使用Python系统地实现,相信读者一定会把Python语言作为实现爬虫的主要技术。 本书适合Python零基础的读者开发爬虫项目,全书共13章内容。第1章是Python基础入门,主要讲解Python的基础语法和面向对象编程基础、图形界面设计、文件使用、Python的第三方库等知识,读者可以轻松掌握Python基础知识。已经学过Python的读者可以直接从第2章开始学习。 第2章和第3章是爬虫技术所必备的HTML基础知识和网络通信基础知识。从第4章开始是实用爬虫项目案例开发,综合应用前面的基础技术,并且每章都有新的爬虫技术,如侧重API获取数据的“小小翻译器”、应用动态网页爬虫技术开发的案例“抓取百度图片”“爬取今日头条新闻”、应用中文分词技术的“校园网搜索引擎”、应用Selenium操作浏览器的“模拟登录豆瓣网站”等案例。另外,第12章还介绍了Scrapy框架爬虫,可以轻松实现强大的爬虫功能。 本书具有以下特点: (1) Python爬虫设计涉及的范围非常广泛,本书内容编排并不求全、求深,而是考虑零基础读者的接受能力,对Python语言语法介绍以够用、实用和应用为原则,选择Python 中必备、实用的知识进行讲解。 (2) 选取的爬虫案例贴近生活,有助于提高学习兴趣。 (3) 每个爬虫案例均提供详细的设计思路、关键技术分析及具体的解决方案。 本书配套资源丰富,包括教学大纲、教学课件、电子教案、程序源码、教学进度表; 本书还配有650分钟的微课视频。 资源下载提示 课件等资源: 扫描封底的“课件下载”二维码,在公众号“书圈”下载。 素材(源码)等资源: 扫描目录上方的二维码下载。 视频等资源: 扫描封底刮刮卡中的二维码,再扫描书中相应章节中的二维码,可以在线学习。 本书由夏敏捷(中原工学院)主持编写,尚展垒(郑州轻工业大学)编写第1~7章,刘济宗(中原工学院)编写第10章和第11章,高艳霞(中原工学院)编写第12章,其余章节由夏敏捷编写。在本书的编写过程中,为确保内容的正确性,参阅了很多资料,并且得到了资深Python程序员的支持,张锦歌、张慎武参与了本书的校对和修订工作,在此谨向他们表示衷心的感谢。 由于作者水平有限,书中难免疏漏和不足之处,敬请广大读者批评指正。 夏敏捷 2020年7月