scrapy数据建模与请求
学习目标:
- 应用 在scrapy项目中进行建模
- 应用 构造Request对象,并发送请求
- 应用 利用meta参数在不同的解析函数中传递数据
1. 数据建模
通常在做项目的过程中,在items.py中进行数据建模
1.1 为什么建模
- 定义item即提前规划好哪些字段需要抓,防止手误,因为定义好之后,在运行过程中,系统会自动检查
- 配合注释一起可以清晰的知道要抓取哪些字段,没有定义的字段不能抓取,在目标字段少的时候可以使用字典代替
- 使用scrapy的一些特定组件需要Item做支持,如scrapy的ImagesPipeline管道类,百度搜索了解更多
1.2 如何建模
在items.py文件中定义要提取的字段:
1 | class MyspiderItem(scrapy.Item): |
1.3 如何使用模板类
模板类定义以后需要在爬虫中导入并且实例化,之后的使用方法和使用字典相同
job.py:
1 | from myspider.items import MyspiderItem # 导入Item,注意路径 |
注意:
from myspider.items import MyspiderItem
这一行代码中 注意item的正确导入路径,忽略pycharm标记的错误- python中的导入路径要诀:从哪里开始运行,就从哪里开始导入
1.4 开发流程总结
创建项目
scrapy startproject 项目名
明确目标
在items.py文件中进行建模创建爬虫
3.1 创建爬虫
1
scrapy genspider 爬虫名 允许的域
3.2 完成爬虫
1
2
3修改start_urls
检查修改allowed_domains
编写解析方法保存数据
在pipelines.py
文件中定义对数据处理的管道
在settings.py
文件中注册启用管道
2. 翻页请求的思路
对于要提取如下图中所有页面上的数据该怎么办?
回顾requests模块是如何实现翻页请求的:
- 找到下一页的URL地址
- 调用
requests.get(url)
scrapy实现翻页的思路:
- 找到下一页的url地址
- 构造url地址的请求对象,传递给引擎
3. 构造Request对象,并发送请求
3.1 实现方法
- 确定url地址
- 构造请求,
scrapy.Request(url,callback)
callback
:指定解析函数名称,表示该请求返回的响应使用哪一个函数进行解析
- 把请求交给引擎:
yield scrapy.Request(url,callback)
3.2 网易招聘爬虫
通过爬取网易招聘的页面的招聘信息,学习如何实现翻页请求
思路分析:
- 获取首页的数据
- 寻找下一页的地址,进行翻页,获取数据
注意:
- 可以在
settings.py
中设置ROBOTS协议
1 | # False表示忽略网站的robots.txt协议,默认为True |
- 可以在
settings.py
中设置User-Agent:
1 | # scrapy发送的每一个请求的默认UA都是设置的这个User-Agent |
3.3 代码实现
在爬虫文件的parse方法中:
1 | ...... |
3.4 scrapy.Request的更多参数
1 | scrapy.Request(url[,callback,method="GET",headers,body,cookies,meta,dont_filter=False]) |
参数解释:
- 中括号里的参数为可选参数
callback
:表示当前的url的响应交给哪个函数去处理meta
:实现数据在不同的解析函数中传递,meta默认带有部分数据,比如下载延迟,请求深度等dont_filter
:默认为False,会过滤请求的url地址,即请求过的url地址不会继续被请求,对需要重复请求的url地址可以把它设置为Ture,比如贴吧的翻页请求,页面的数据总是在变化;start_urls中的地址会被反复请求,否则程序不会启动method
:指定POST或GET请求headers
:接收一个字典,其中不包括cookiescookies
:接收一个字典,专门放置cookiesbody
:接收json字符串,为POST的数据,发送payload_post请求时使用(在下一章节中会介绍post请求)
4. meta参数的使用
meta的作用:meta可以实现数据在不同的解析函数中的传递
在爬虫文件的parse方法中,提取详情页增加之前callback指定的parse_detail函数:
1 | def parse(self,response): |
特别注意:
- meta参数是一个字典
- meta字典中有一个固定的键
proxy
,表示代理ip,关于代理ip的使用我们将在scrapy的下载中间件的学习中进行介绍
小结
- 完善并使用Item数据类:
- 在
items.py
中完善要爬取的字段 - 在爬虫文件中先导入Item
- 实力化Item对象后,像字典一样直接使用
- 在
- 构造Request对象,并发送请求:
- 导入
scrapy.Request
类 - 在解析函数中提取url
yield scrapy.Request(url, callback=self.parse_detail, meta={})
- 导入
- 利用meta参数在不同的解析函数中传递数据:
- 通过前一个解析函数
yield scrapy.Request(url, callback=self.xxx, meta={})
来传递meta - 在self.xxx函数中
response.meta.get('key', '')
或response.meta['key']
的方式取出传递的数据
- 通过前一个解析函数
参考代码
wangyi/spiders/job.py
1 | import scrapy |
wangyi/items.py
1 | class WangyiItem(scrapy.Item): |
__END__

文章作者:三国小梦
文章出处:scrapy数据建模与请求
作者签名:简单地活着, 肆意又精彩.
关于主题:Hexo - Live For Code
版权声明:文章除特别声明外,均采用 BY-NC-SA 许可协议,转载请注明出处
文章出处:scrapy数据建模与请求
作者签名:简单地活着, 肆意又精彩.
关于主题:Hexo - Live For Code
版权声明:文章除特别声明外,均采用 BY-NC-SA 许可协议,转载请注明出处