- 首頁
- >
- 書籍詳目頁
- 作者: 刘延林 (著)
- 學科分類: 科學類
- 書籍分類: 程式語言 ; 電機資訊學院
- 出版社: 北京大学出版社有限公司
- 出版地:中國大陸
- 出版日期:2021
- 語文:簡體中文
- ISBN/識別號:9787301322697
Python爬虫与反爬虫开发从入门到精通
可使用:0人
線上閱讀中:0人
下載閱讀中:0人
借閱天數:0天

推薦採購不提供QR CODE
線上閱讀
本書提供兩種檔案格式,請選擇開啟:
EPUB彈性排版,可依載具大小自動斷行或換頁,較適合小螢幕閱讀。
書籍內容
TOP
随着网络技术的迅速发展,如何有效地提取并利用信息,以及如何有效地防止信息被爬取,已成为一个巨大的挑战。本书从零开始系统地介绍了Python网络爬虫与反爬虫的开发与实战技能,全书共分为4篇,具体内容安排如下。
第1篇:基础篇(第1~3章)。系统地讲解了Python爬虫与反爬虫开发环境的搭建、爬虫与反爬虫通用基础知识、Python编程基础。
第2篇:爬虫篇(第4~8章)。这部分讲解了网络爬虫的相关知识与技能,主要包括网络爬虫快速入门、XPath匹配网页数据、re正则匹配数据、WebSocket数据抓取、Scr
- 目錄
-
封面
-
版权
-
Python爬虫与反爬虫见招拆招,攻防兼备
-
目录
-
第1篇 基础篇
-
第1章 爬虫与反爬虫开发环境搭建
-
1.1 Python 3环境搭建
-
1.2 PyCharm的安装与基本使用
-
1.3 Tesseract-OCR
-
1.4 mitmproxy
-
1.5 JDK 1.8
-
本章小结
-
第2章 爬虫与反爬虫通用基础知识
-
2.1 网页基础
-
2.2 网络传输协议
-
2.3 Session和Cookies
-
2.4 Nginx服务器
-
2.5 代理IP
-
2.6 HTTP接口概念
-
2.7 新手问答
-
本章小结
-
第3章 Python编程基础
-
3.1 Python的基础语法
-
3.2 基本数据类型
-
3.3 流程控制
-
3.4 函数
-
3.5 文件操作
-
3.6 面向对象
-
3.7 多线程
-
3.8 新手实训
-
3.9 新手问答
-
本章小结
-
第2篇 爬虫篇
-
第4章 网络爬虫快速入门
-
4.1 爬虫的基本结构及工作流程
-
4.2 urllib网络请求库
-
4.3 requests网络请求库
-
4.4 urllib3网络请求库
-
4.5 Postman接口测试工具
-
4.6 新手实训
-
4.7 新手问答
-
本章小结
-
第5章 XPath匹配网页数据
-
5.1 安装XPath
-
5.2 XPath的基础语法
-
5.3 在Python中使用XPath匹配数据
-
5.4 XPath表达式技巧
-
5.5 扩展补充知识点
-
5.6 新手实训
-
5.7 新手问答
-
本章小结
-
第6章 re正则匹配数据
-
6.1 re.compile函数
-
6.2 re.match函数
-
6.3 re.search函数
-
6.4 re.match与re.search的区别
-
6.5 检索和替换
-
6.6 findall函数
-
6.7 常见正则表达式写法
-
6.8 新手实训
-
6.9 新手问答
-
本章小结
-
第7章 WebSocket数据抓取
-
7.1 WebSocket通信原理
-
7.2 使用aioWebSocket获取数据
-
7.3 新手实训
-
7.4 新手问答
-
本章小结
-
第8章 Scrapy爬虫框架应用与开发
-
8.1 Scrapy框架的基本架构
-
8.2 安装Scrapy
-
8.3 创建项目
-
8.4 定义Item
-
8.5 编写第一个Spider
-
8.6 运行爬虫
-
8.7 提取Item
-
8.8 在Shell中尝试Selector选择器
-
8.9 提取数据
-
8.10 使用Item
-
8.11 Item Pipeline
-
8.12 将Item写入JSON文件
-
8.13 新手实训
-
8.14 新手问答
-
本章小结
-
第3篇 反爬虫篇
-
第9章 爬虫与反爬虫
-
9.1 爬虫知识的回顾与总结
-
9.2 反爬虫的概念与定义
-
本章小结
-
第10章 反爬—Header信息校验
-
10.1 User-Agent
-
10.2 Cookie校验
-
10.3 Referer校验
-
10.4 签名校验
-
10.5 新手实训
-
10.6 新手问答
-
本章小结
-
第11章 反爬—IP限制
-
11.1 代理设置
-
11.2 代理池构建
-
11.3 搭建自己的代理服务器
-
11.4 使用Nginx实现封禁IP
-
11.5 新手问答
-
本章小结
-
第12章 反爬—动态渲染页面
-
12.1 动态渲染案例介绍
-
12.2 常见应对动态渲染页面的解决办法
-
12.3 使用Selenium爬取动态渲染页面
-
12.4 获取浏览器Network请求和响应
-
12.5 新手实训
-
12.6 新手问答
-
本章小结
-
第13章 反爬—文本混淆
-
13.1 图片伪装反爬
-
13.2 CSS偏移反爬
-
13.3 编码映射反爬
-
13.4 字体反爬
-
13.5 新手实训
-
13.6 新手问答
-
本章小结
-
第14章 反爬—特征识别
-
14.1 浏览器指纹
-
14.2 WebDriver驱动识别
-
14.3 使用mitmproxy
-
14.4 网页精灵
-
14.5 新手实训
-
14.6 新手问答
-
本章小结
-
第15章 反爬—验证码识别
-
15.1 普通图形验证码
-
15.2 滑动验证码
-
15.3 滑动拼图验证码
-
15.4 新手实训
-
15.5 新手问答
-
本章小结
-
第16章 反爬—APP数据抓取
-
16.1 APP的抓包分析
-
16.2 Appium自动化
-
16.3 APK安装包反编译
-
16.4 APK反编译知识补充
-
16.5 新手实训
-
16.6 新手问答
-
本章小结
-
第4篇 实战篇
-
第17章 项目实战
-
17.1 土地市场网——地块公示
-
17.2 纽约工商数据采集
-
17.3 携程旅行火车票票价数据采集
-
17.4 智联招聘数据采集
-
附录A 爬虫法律法规
-
附录B 实验环境的搭建方法及说明
-
附录C Python常见面试题精选