没有合适的资源?快使用搜索试试~ 我知道了~
1.主题式⽹络爬⾍名称 《Python爬⾍对站长之家⽹站分类信息⽹站排⾏榜的爬取及分析》 2.主题式⽹络爬⾍爬取的内容与数据特征分析 爬取内容:各类⽹站的⽹站名称,⽹址,Alexa周排名,反链数。 数据特征分析:Alexa周排名,反链数等数据可通过后续绘制直⽅图、散点图等观察数据的变化情况。 3.主题式⽹络爬⾍设计⽅案概述(包括实现思路与技术难点) 实现思路:本次设计⽅案主要使⽤request库爬取⽹页信息和beautifulSoup库来提取分类信息⽹站排⾏榜的信息。 技术难点:主要包括对站长之家⽹站分类信息⽹站排⾏榜部分的页⾯进⾏分析采集以及数据的可视化。
资源推荐
资源详情
资源评论
Python⽹络爬⾍课程设计⽹络爬⾍课程设计
⼀、选题的背景
为什么要选择此选题?要达到的数据分析的预期⽬标是什么?(10 分)
为了通过爬取⽹站获取的信息来分析现在⽹络上社会、经济、技术等各种信息⽹站的影响⼒排⾏,以此了解⼈们对哪种信息⽹站更青睐,访
问的更加频繁。
⼆、主题式⽹络爬⾍设计⽅案(10 分)
1.主题式⽹络爬⾍名称
《Python爬⾍对站长之家⽹站分类信息⽹站排⾏榜的爬取及分析》
2.主题式⽹络爬⾍爬取的内容与数据特征分析
爬取内容:各类⽹站的⽹站名称,⽹址,Alexa周排名,反链数。
数据特征分析:Alexa周排名,反链数等数据可通过后续绘制直⽅图、散点图等观察数据的变化情况。
3.主题式⽹络爬⾍设计⽅案概述(包括实现思路与技术难点)
实现思路:本次设计⽅案主要使⽤request库爬取⽹页信息和beautifulSoup库来提取分类信息⽹站排⾏榜的信息。
技术难点:主要包括对站长之家⽹站分类信息⽹站排⾏榜部分的页⾯进⾏分析采集以及数据的可视化。
三、主题页⾯的结构特征分析(10 分)
1.主题页⾯的结构特征
2. 通过F12,对页⾯进⾏检查,查看我们所需要爬取内容的相关代码
3.节点(标签)查找⽅法与遍历⽅法
查找⽅法:find
遍历⽅法:for循环
四、⽹络爬⾍程序设计(60 分)
爬⾍程序主体要包括以下各部分,要附源代码及较详细注释,并在每部分程序后⾯提供输出结果的截图。
1.数据爬取与采集
1 #导⼊库
2 import requests
3 from lxml import etree
4 import pandas as pd
5
6 #初始列表
7 sitename_oyr,websites_oyr, Alexa_oyr, Antichain_oyr = [], [], [], []
8 for a in range(15):
9
10 #爬取⽹站的⽹址并且循环爬取前15页的内容
11 url = "https://top.chinaz.com/hangye/index_shenghuo_fenlei_{}.html".format(a*15)
12
13 #设置请求头
14 headers = {
15 "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.106 Safari/537.36"
16 }
17
18 #requests请求链接
19 rq = requests.get(url,headers=headers).text
20
21 #使⽤lxml模块中的etree⽅法讲字符串转化为html标签
22 html = etree.HTML(rq)
23
24 #⽤xpath定位标签位置
25 html = html.xpath("/html/body/div[4]/div[3]/div[2]/ul/li")
26
27 #获取要爬取内容的详情链接
资源评论
会的东西有点杂
- 粉丝: 743
- 资源: 230
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功