欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 教育 > 锐评 > Python爬虫的基础用法

Python爬虫的基础用法

2025/5/10 10:08:16 来源:https://blog.csdn.net/weixin_56449709/article/details/147683854  浏览:    关键词:Python爬虫的基础用法

Python爬虫的基础用法

python爬虫一般通过第三方库进行完成

  1. 导入第三方库(如import requests
    requests用于处理http协议请求的第三方库,用python解释器中查看是否有这个库,没有点击+安装
  2. 获取网站url(url一定要解析正确,如在百度网站中的某个图片,不是指www.baidu.com,而是这个图片的具体地址(可以点击查看,亦可以用浏览器自带的检查功能进行寻找))
  3. 之后通过requests.get打开网站,设置自己适用的encoding
  4. a = re.findall('<标签>正则表达式<标签>',文件名)通过HTML定义的标签,找到自己想要的内容,再赋值给一个变量a(并将获取到的数据以指定的数据类型存储到文件中)
  5. 将文件内容使用print输出进行查看

示例如下:

# url = "http://weather.com.cn/weather1d/101010100.shtml#search"
# resp = requests.get(url)          # 打开浏览器访问该地址
# resp.encoding = 'UTF-8'
# print(resp)# 返回访问代码 200表示成功 500 错误
# print(resp.text) # 展示网页 (html代码的形式展示网页)# city = re.findall('<span class="name">([\u4e00-\u9fa5]*)</span>', resp.text)
# weather = re.findall('<span class="weather">([\u4e00-\u9fa5]*)</span>', resp.text)
# 以上赋值操作中的内容必须在resp.text中存在
# lst = []
# for a,b in zip(city, weather,):  # 通过zip方式将爬取到的内容填充到list中
#         lst.append([a,b])
# for i in lst:
#     print(i)
# 爬取图片与之相似
# url = "https://uhf.microsoft.com/images/microsoft/RE1Mu3b.png"
# resp = requests.get(url)
# # print(resp.content)
# with open('logo.png', 'wb') as f:
#     f.write(resp.content)

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词