大数据-Pagerank-实验报告
潘巧巧 1613415 李佳骏 1613368
(1) 概述
语言:C++。
分块:4×4,共 16 块。
大致过程:读取原始数据 wikidata-分块-获取所有网页-初始化 PageRank-
Map_Reduce 执行至收敛-写入数据
(2) 数据集分析
① 原始数据集 wikidata 以“[FromNodeID] [ToNodeID]”形式存储,包括了
有入度有出度、有入度无出度、有出度无入度等各个类型的结点。
② 涉及源网页 6110 个,所有网页点共 7115 个。
③ 数据集较稀疏,结点间联系不太紧密,可知用矩阵存储空间消耗较大。
(3) 程序设计大致流程及关键代码解析
1、为【优化稀疏矩阵】,本实验中数据存储使用紧凑表示法(以WebData为类
型vector一维数组Data)存储数据。
struct WebData
{
int WebID; //存储源网页号码
int NumOfOut; //存储源网页的出度
vector<int> Target; //存储源网页指向的各个目标网页号码