欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 健康 > 养生 > python3爬虫(未完结)

python3爬虫(未完结)

2025/5/7 15:34:10 来源:https://blog.csdn.net/beautiful77moon/article/details/141370356  浏览:    关键词:python3爬虫(未完结)

一个简单的例子:爬取自己的csdn博客,统计每篇博客的访问量,制作一个柱状图,以访问量从大到小的方式显示。

1. 首先从“个人主页”爬取所有所有文章的链接

        1.1 打开个人主页,右键->检查:可以看到每篇文章的链接挂在哪个标签的哪个属性下( <article>标签下的<a>标签中的href属性值即为每篇文章的链接 )

        1.2 代码提取网页中的所有文章ip(我们可以发现,当页面内容过多时,需要下拉"加载",才能显示所有内容,所以这里需要一个工具模拟浏览器行为,自动滚动页面以加载更多内容。待完善

from bs4 import BeautifulSoup  #pip3 install beautifulsoup4
from urllib.request import urlopenhomePage_url="your_blog_link"  #你的csdn个人主页链接
homePage_html=urlopen(homePage_url).read().decode('utf-8')
soup=BeautifulSoup(homePage_html,features='lxml')#1.查找所有的<article>标签
li_articles=soup.find_all('article')#2.取出所有<article>标签下<a>中的href属性值
article_urls=[]
for item in li_articles:link=item.find_all('a')article_urls.append(link[0]['href'])print(link[0]['href'])

        1.3 结果如下:

        

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词