图书介绍
Scrapy网络爬虫实战PDF|Epub|txt|kindle电子书版本网盘下载
![Scrapy网络爬虫实战](https://www.shukui.net/cover/34/32439067.jpg)
- (中国)东郭大猫 著
- 出版社: 北京:清华大学出版社
- ISBN:9787302536208
- 出版时间:2019
- 标注页数:241页
- 文件大小:146MB
- 文件页数:253页
- 主题词:软件工具-程序设计
PDF下载
下载说明
Scrapy网络爬虫实战PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 Python开发环境的搭建1
1.1 Python SDK安装1
1.1.1 在Windows上安装Python1
1.1.2 在Ubuntu上安装Python2
1.2 安装开发工具PyCharm社区版3
1.3 安装开发工具Visual Studio社区版5
第2章 爬虫基础知识6
2.1 爬虫原理6
2.1.1 爬虫运行基本流程6
2.1.2 HTTP请求过程8
2.2 网页分析方法1:浏览器开发人员工具9
2.2.1 Elements面板10
2.2.2 Network面板11
2.3 网页分析方法2:XPath语法14
2.3.1 XPath节点14
2.3.2 XPath语法15
2.3.3 XPath轴17
2.3.4 XPath运算符19
2.4 网页分析方法3:CSS选择语法19
2.4.1 元素选择器20
2.4.2 类选择器21
2.4.3 ID选择器21
2.4.4 属性选择器21
2.4.5 后代选择器21
2.4.6 子元素选择器22
2.4.7 相邻兄弟选择器22
2.5 网页分析方法4:正则表达式22
2.5.1 提取指定字符23
2.5.2 预定义字符集23
2.5.3 数量限定23
2.5.4 分支匹配24
2.5.5 分组24
2.5.6 零宽断言24
2.5.7 贪婪模式与非贪婪模式25
2.5.8 Python中的正则表达式25
2.6 爬虫常用类库1:Python中的HTTP基本库urllib30
2.6.1 发送请求30
2.6.2 使用Cookie31
2.7 爬虫常用类库2:更人性化的第三方库requests33
2.7.1 发送请求34
2.7.2 请求头35
2.7.3 响应内容35
2.7.4 响应状态码36
2.7.5 cookies参数37
2.7.6 重定向与请求历史37
2.7.7 超时38
2.7.8 设置代理38
2.7.9 会话对象38
2.8 爬虫常用类库3:元素提取利器BeautifulSoup39
2.8.1 安装BeautifulSoup39
2.8.2 安装解析器40
2.8.3 BeautifulSoup使用方法41
2.8.4 BeautifulSoup对象43
2.8.5 遍历文档树47
2.8.6 搜索文档树52
2.8.7 BeautifulSoup中的CSS选择器57
2.9 爬虫常用类库4:Selenium操纵浏览器58
2.9.1 安装Selenium59
2.9.2 Selenium的基本使用方法59
2.9.3 Selenium Webdriver的原理61
2.9.4 Selenium中的元素定位方法61
2.9.5 Selenium Webdriver基本操作63
2.9.6 Selenium实战:抓取拉钩网招聘信息64
2.10 爬虫常用类库5:Scrapy爬虫框架67
2.10.1 安装Scrapy67
2.10.2 Scrapy简介68
2.11 基本爬虫实战:抓取cnBeta网站科技类文章69
2.11.1 URL管理器70
2.11.2 数据下载器71
2.11.3 数据分析器72
2.11.4 数据保存器74
2.11.5 调度器75
第3章 Scrapy命令行与Shell78
3.1 Scrapy命令行介绍78
3.1.1 使用startproj ect创建项目80
3.1.2 使用genspider创建爬虫81
3.1.3 使用crawl启动爬虫82
3.1.4 使用list查看爬虫82
3.1.5 使用fetch获取数据83
3.1.6 使用runspider运行爬虫84
3.1.7 通过view使用浏览器打开URL85
3.1.8 使用parse测试爬虫85
3.2 Scrapy Shell命令行85
3.2.1 Scrapy Shell的用法85
3.2.2 实战:解析名人名言网站86
第4章 Scrapy爬虫89
4.1 编写爬虫89
4.1.1 scrapy.Spider爬虫基本类89
4.1.2 start_requests()方法90
4.1.3 parse(response)方法91
4.1.4 Selector选择器91
4.2 通用爬虫94
4.2.1 CrawlSpider94
4.2.2 XMLFeedSpider95
4.2.3 CSVFeedSpider96
4.2.4 SitemapSpider97
4.3 爬虫实战98
4.3.1 实战1:CrawlSpider爬取名人名言98
4.3.2 实战2:XMLFeedSpider爬取伯乐在线的RSS102
4.3.3 实战3:CSVFeedSpider提取csv文件数据104
4.3.4 实战4:SitemapSpider爬取博客园文章106
第5章 Scrapy管道109
5.1 管道简介109
5.2 编写自定义管道110
5.3 下载文件和图片113
5.3.1 文件管道114
5.3.2 图片管道117
5.4 数据库存储MySQL121
5.4.1 在Ubuntu上安装MySQL121
5.4.2 在Windows上安装MySQL122
5.4.3 MySQL基础125
5.4.4 MySQL基本操作127
5.4.5 Python操作MySQL129
5.5 数据库存储MongoDB131
5.5.1 在Ubuntu上安装MongoDB132
5.5.2 在Windows上安装MongoDB132
5.5.3 MongoDB基础135
5.5.4 MongoDB基本操作137
5.5.5 Python操作MongoDB143
5.6 实战:爬取链家二手房信息并保存到数据库144
第6章 Request与Response157
6.1 Request对象157
6.1.1 Request类详解158
6.1.2 Request回调函数与错误处理160
6.2 Response162
6.2.1 Response类详解162
6.2.2 Response子类163
第7章 Scrapy中间件165
7.1 编写自定义Spider中间件165
7.1.1 激活中间件165
7.1.2 编写Spider中间件166
7.2 Spider内置中间件168
7.2.1 DepthMiddleware爬取深度中间件168
7.2.2 HttpErrorMiddleware失败请求处理中间件168
7.2.3 OffsiteMiddleware过滤请求中间件169
7.2.4 RefererMiddleware参考位置中间件169
7.2.5 UrlLengthMiddleware网址长度限制中间件170
7.3 编写自定义下载器中间件170
7.3.1 激活中间件170
7.3.2 编写下载器中间件171
7.4 下载器内置中间件173
7.4.1 CookiesMidleware173
7.4.2 HttpProxyMiddleware174
7.5 实战:为爬虫添加中间件174
第8章 Scrapy配置与内置服务178
8.1 Scrapy配置简介178
8.1.1 命令行选项(优先级最高)178
8.1.2 每个爬虫内配置179
8.1.3 项目设置模块179
8.1.4 默认的命令行配置181
8.1.5 默认全局配置(优先级最低)182
8.2 日志182
8.3 数据收集184
8.4 发送邮件187
8.4.1 简单例子187
8.4.2 MailSender类187
8.4.3 在settings.py中对Mail进行设置188
8.5 实战:抓取猫眼电影TOP 100榜单数据188
8.5.1 分析页面元素189
8.5.2 创建项目189
8.5.3 编写items.py190
8.5.4 编写管道pipelines.py190
8.5.5 编写爬虫文件top 100.py191
第9章 模拟登录194
9.1 模拟提交表单194
9.2 用Cookie模拟登录状态197
9.3 项目实战198
9.3.1 实战1:使用FormRequest模拟登录豆瓣198
9.3.2 实战2:使用Cookie登录202
第10章 Scrapy爬虫优化205
10.1 Scrapy+MongoDB实战:抓取并保存IT之家博客新闻205
10.1.1 确定目标205
10.1.2 创建项目206
10.1.3 编写items.py文件207
10.1.4 编写爬虫文件news.py207
10.1.5 编写管道pipelines.py209
10.1.6 编写settings.py210
10.1.7 运行爬虫211
10.2 用Benchmark进行本地环境评估212
10.3 扩展爬虫214
10.3.1 增大并发214
10.3.2 关闭Cookie214
10.3.3 关闭重试214
10.3.4 减少下载超时时间215
10.3.5 关闭重定向215
10.3.6 AutoThrottle扩展215
第11章 Scrapy项目实战:爬取某社区用户详情217
11.1 项目分析217
11.1.1 页面分析217
11.1.2 抓取流程221
11.2 创建爬虫221
11.2.1 cookies收集器222
11.2.2 Items类225
11.2.3 Pipeline管道编写226
11.2.4 Spider爬虫文件227
11.2.5 Middlewars中间件编写235