1.1 爬虫的一些知识（大模型提供语料）

2026/4/20 21:59:22 来源：https://blog.csdn.net/KuaiLeShiFu/article/details/143922270 浏览: 次关键词：1.1 爬虫的一些知识（大模型提供语料）

1.1 爬虫的一些知识（大模型提供语料）
网页资源：
资源组织方式：列表分页,搜索引擎，推荐
发送请求的文档类型：html ,js
响应请求的文档类型：html,js,json
请求方式：同步和异步
页面形式：单页面，非单页面；
抓取流程：requests直接请求
# 抓取入口(穷举或者探索方式)
# 遍历
# 解析&清洗
# 入库
# 遍历结束
需要关注的点：
内容反爬：抓取内容投毒、混淆等反抓取；
请求反爬：返回403等，或者跳转或者返回到一个人工校验页面；
资源覆盖率：穷举所有要抓取的资源；
增量抓取：如何保证更新能跟上；
抓取速率要友好；
关于反爬策略：
加上header；
不使用requests；
加上IP代理池；
关于模拟抓取：
重量级:selenium
轻量级：其他；
解析：bs4和xpath
一个是擅长筛选器，一个擅长路径定位；
清洗：
内容部分乱码、（硬）断行。
后续继续补充。。。

本网仅为发布的内容提供存储空间，不对发表、转载的内容提供任何形式的保证。凡本网注明“来源：XXX网络”的作品，均转载自其它媒体，著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处。

我们尊重并感谢每一位作者，均已注明文章来源和作者。如因作品内容、版权或其它问题，请及时与我们联系，联系邮箱：809451989@qq.com，投稿邮箱：809451989@qq.com

1.1 爬虫的一些知识（大模型提供语料）

相关资讯

热文排行

最新新闻

推荐新闻

热搜词