没有合适的资源?快使用搜索试试~ 我知道了~
pagerank算法实现 与 networkX进行对比 爬取真实网站数据
需积分: 0 2 下载量 8 浏览量
2024-01-04
11:40:48
上传
评论 1
收藏 395KB IPYNB 举报
温馨提示
Task 1.网站关系可视化及PR计算(新闻与政府网站 1.请以“新华网”和“人民网”为起点,在各网站首页上,爬取与他们有超链接关系的其他网站列表,再顺藤摸瓜,爬取列表中各网站首页上,与之有超链接关系的网站列表。如此操作,爬取5层。构建出一套网站关系数据,并在Python中,利用Networkx,将该网络可视化。 2. 依次输出该网络的三个矩阵:转移矩阵、邻接矩阵、测地线距离矩阵。 3. 利用两种方法计算各节点的PR值 (1)方法一:调用Networkx中的pagerank函数,计算上图中各点的PR值 (2)方法二:根据PR值的计算原理,自己编写代码(不调用pagerank函数或其他可以直接输出PR值的函数、包等),计算各节点的PR值。 比较两种方法的结果——用列表方式比较两种方法计算的PR值并输出(print)排名前20的网站名称及其排序。在输出结果中,column1为网站名称,col2为第一种方法返回的PR值,col3为第二种方法返回的PR值 4. 将有向图转化为无向图,重新计算各节点的PR值,并与之前的结果比较。尝试解释排序产生变 化的原因。
资源推荐
资源评论
资源评论
从冬
- 粉丝: 15
- 资源: 4
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功