欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 汽车 > 维修 > 爬虫学习——Spider和Selector

爬虫学习——Spider和Selector

2025/5/1 18:14:35 来源:https://blog.csdn.net/qq_64296768/article/details/147363360  浏览:    关键词:爬虫学习——Spider和Selector

Scrapy数据流图:

Engine:为引擎,其为框架的核心,其他所有组件在其控制下协同工作

Scheduler:为调度器,负责对Spider提交的下载请求进行调度

Downloader:为下载器,负责下载页面(发送HTTP请求/接收HTTP响应)

Spider:为爬虫,负责提取页面中的数据,并产生对新页面的下载请求

Middleware:为中间件,负责对Request对象和Response对象进行处理

Item Pipleline:为数据管道,负责对爬取的数据进行处理

使用Selector提取数据

BeautifulSoup是非常流行的HTTP解析库,API简洁易用,但解析速度较慢。

Lxml底层是由C语言编写的,使得其解析的速度更快,API相对复杂。

而Scrapy综合以上两个的优点实现了Selector类,

在Selector中有以下方法可以对选中的内容进行提取extract()/re()/extract_first()/re_first(),该extract_first()/re_first()方法返回的是第一个SelectorList对象调用extract方法的结果,其中包含该Xpath中的各文本,可以通过索引进行对应的提取。

由于自己对Xpath较为陌生,所以使用下面对XPath的知识进行补充学习:

以下是学习XPath文档:https://www.w3.org/TR/xpath/

CSS语法比XPath简单,但是其功能不如Xpath强大,在使用CSS时,其Python内部会将CSS选择器表达式转化为Xpath表达式,然后调用XPATH方法对其进行处理

以下是学习CSS文档:https://www.w3.org/TR/css3-selectors

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词