Python网络爬虫课程设计_python爬虫采集网址资源-CSDN文库

16 浏览量 2023-08-15 12:07:00 上传评论 1 收藏 134KB PDF 举报

资源推荐

资源详情

资源评论

Python⽹络爬⾍课程设计⽹络爬⾍课程设计

⼀、选题的背景

为什么要选择此选题？要达到的数据分析的预期⽬标是什么？（10 分）

为了通过爬取⽹站获取的信息来分析现在⽹络上社会、经济、技术等各种信息⽹站的影响⼒排⾏，以此了解⼈们对哪种信息⽹站更青睐，访

问的更加频繁。

⼆、主题式⽹络爬⾍设计⽅案（10 分）

1.主题式⽹络爬⾍名称

《Python爬⾍对站长之家⽹站分类信息⽹站排⾏榜的爬取及分析》

2.主题式⽹络爬⾍爬取的内容与数据特征分析

爬取内容：各类⽹站的⽹站名称，⽹址，Alexa周排名，反链数。

数据特征分析：Alexa周排名，反链数等数据可通过后续绘制直⽅图、散点图等观察数据的变化情况。

3.主题式⽹络爬⾍设计⽅案概述（包括实现思路与技术难点）

实现思路：本次设计⽅案主要使⽤request库爬取⽹页信息和beautifulSoup库来提取分类信息⽹站排⾏榜的信息。

技术难点：主要包括对站长之家⽹站分类信息⽹站排⾏榜部分的页⾯进⾏分析采集以及数据的可视化。

三、主题页⾯的结构特征分析（10 分）

1.主题页⾯的结构特征

2. 通过F12，对页⾯进⾏检查，查看我们所需要爬取内容的相关代码

3.节点（标签）查找⽅法与遍历⽅法

查找⽅法：find

遍历⽅法：for循环

四、⽹络爬⾍程序设计（60 分）

爬⾍程序主体要包括以下各部分，要附源代码及较详细注释，并在每部分程序后⾯提供输出结果的截图。

1.数据爬取与采集

1 #导⼊库

2 import requests

3 from lxml import etree

4 import pandas as pd

5

6 #初始列表

7 sitename_oyr,websites_oyr, Alexa_oyr, Antichain_oyr = [], [], [], []

8 for a in range(15):

9

10 #爬取⽹站的⽹址并且循环爬取前15页的内容

11 url = "https://top.chinaz.com/hangye/index_shenghuo_fenlei_{}.html".format(a*15)

12

13 #设置请求头

14 headers = {

15 "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.106 Safari/537.36"

16 }

17

18 #requests请求链接

19 rq = requests.get(url,headers=headers).text

20

21 #使⽤lxml模块中的etree⽅法讲字符串转化为html标签

22 html = etree.HTML(rq)

23

24 #⽤xpath定位标签位置

25 html = html.xpath("/html/body/div[4]/div[3]/div[2]/ul/li")

26

27 #获取要爬取内容的详情链接

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余4页未读，立即下载

内容反馈

会的东西有点杂

粉丝: 743
资源: 230

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip