1. 首先根据网上教程搭建 win10 + scala + spark + hadoop 环境
登录网站 http://127.0.0.1:4040/jobs/
环境搭建成功。
2. 配置 IDEA 环境
3. PageRank 是执行多次连接的一个迭代算法。 算法会维护两个数据集(在 spark 中为
RDD):
links:由 (pageID, linkList) 的元素组成,包含每个页面的相邻页面的列表。其中的一个
元素例如:(A,[B,C,D]) 代表 A 中含指向 B C D 的链接
ranks:由 (pageID,PR) 元素组成,包含每个页面的当前排序值。它按如下步 骤进行计
算。其中的一个元素例如(A,0.7)代表