- 首頁
- >
- 書籍詳目頁
- 作者: 张颖 (著)
- 學科分類: 科學類
- 書籍分類: 程式語言
- 出版社: 北京大学出版社有限公司
- 出版地:中國大陸
- 出版日期:2021
- 語文:簡體中文
- ISBN/識別號:9787301320228
Python网络爬虫框架Scrapy从入门到精通
可使用:0人
線上閱讀中:0人
下載閱讀中:0人
借閱天數:0天

推薦採購不提供QR CODE
線上閱讀
本書提供兩種檔案格式,請選擇開啟:
EPUB彈性排版,可依載具大小自動斷行或換頁,較適合小螢幕閱讀。
書籍內容
TOP
(1)系统:全流程讲解Scrapy的原理和实战,依次击破编程难点。
(2)经典:凝聚笔者十多年的Scrapy使用经验,无私奉献设计秘籍。
(3)深入:浅入深出地介绍爬虫原理、数据爬取、数据保存、数据分析和测试等技术。并且,所有案例都配有对应的代码,拿来就用。
- 目錄
-
封面
-
版权
-
前言
-
目录
-
第1章 Scrapy 框架简介
-
1.1 Scrapy 简介
-
1.2 关于本书:目标和用途
-
1.3 进行自动化数据爬取的重要性
-
1.4 掌握自动化测试的重要性
-
1.5 合理规划,开发高质量的应用
-
1.6 网络数据的采集法律与道德约束
-
1.7 本章小结
-
第2章 Scrapy 网络爬虫知识介绍
-
2.1 爬虫的作用
-
2.2 爬虫必备的前端知识
-
2.3 爬虫经常用的 Python 语法
-
2.4 本章小结
-
第3章 Scrapy 开发环境的搭建
-
3.1 安装 Python
-
3.2 数据库的安装
-
3.3 安装 Scrapy
-
3.4 本章小结
-
第4章 Scrapy 架构及编程
-
4.1 Scrapy 架构及目录源码分析
-
4.2 Scrapy 项目的创建和管理
-
4.3 PyCharm 如何调试 Scrapy
-
4.4 Scrapy 的组件
-
4.5 Scrapy 的数据流
-
4.6 数据存储
-
4.7 Scrapy 如何定义中间件
-
4.8 Scrapy 其他方法的使用
-
4.9 本章小结
-
第5章 Scrapy 进阶
-
5.1 理解 Scrapy 性能
-
5.2 编写 Spider 的逻辑
-
5.3 Item 和 Pipeline
-
5.4 数据库存储
-
5.5 Scrapy 集成随机 User-Agent 和代理 IP
-
5.6 突破反爬技术
-
5.7 图片和文件下载
-
5.8 如何部署爬虫
-
5.9 计划定时爬取
-
5.10 本章小结
-
第6章 实战项目:Scrapy 静态网页的爬取
-
6.1 采集需求及网页分析
-
6.2 数据表的设计
-
6.3 获取和解析列表、详情页
-
6.4 数据存储
-
6.5 数据的导出和展示
-
6.6 本章小结
-
第7章 实战项目:Scrapy 动态网页的爬取
-
7.1 采集需求及网页分析
-
7.2 Selenium 的安装和使用
-
7.3 解析网页及代码的实现
-
7.4 数据的存储
-
7.5 数据的导出
-
7.6 本章小结
-
第8章 实战项目:Scrapy 爬取 App 应用数据
-
8.1 搭建开发环境
-
8.2 移动自动化工具:Ui Automator Viewer
-
8.3 App Desktop 工具的录制功能
-
8.4 App 应用数据抓取实战项目
-
8.5 本章小结
-
第9章 Scrapy 的分布式部署与爬取
-
9.1 分布式系统概述及要点
-
9.2 使用 Gerapy 管理分布式爬虫
-
9.3 通过 Scraptd+ScrapydWeb 简单高效地部署和监控分布式爬虫项目
-
9.4 使用 Scrapy-Redis 实现分布式爬虫
-
9.5 本章小结
-
第10章 分布式的实战项目
-
10.1 搭建 Redis 服务器
-
10.2 创建主项目及配置 Scrapy-Redis
-
10.3 创建从项目及配置 Scrapy-Redis
-
10.4 部署代理 IP 池及 User-Agent
-
10.5 执行程序
-
10.6 本章小结
-
第11章 用 Selenium 框架测试网站
-
11.1 网站测试简介
-
11.2 用 Scrapy+Selenium 进行前端自动化测试
-
11.3 本章小结
-
第12章 用 Scrapy+Pandas 进行数据分析
-
12.1 Python 数据分析概述
-
12.2 NumPy 简介及操作
-
12.3 Matplotlib 简介及操作
-
12.4 Pandas 简介及操作
-
12.5 实战项目:Scrapy 爬取网站并用 Pandas 进行数据分析
-
12.6 本章小结
同類型書籍推薦
TOP