大规模数据处理:项目3
入门
如果您要查找有关Git,模板存储库或设置本地/远程环境的信息,请前往 。
Spark的GraphX API
该项目将使您熟悉Spark提供的 。
您将实现Luby的最大独立集(MIS)算法和一个用于验证MIS的程序。 在main.scala的程序框架中,相应的功能分别是LubyMIS和verifyMIS 。
相关资料
您可以在找到包含Project 3数据的TAR文件(12个CSV文件)。 下载并展开TAR文件以进行本地处理。 要在云中进行处理,请参考在创建存储桶的步骤,然后上载twitter_original_edges.csv ,这是您需要在GCP中访问的文件。
twitter_original_edges.csv包含Twitter的社交网络图(〜1.32 GB)。 还为您提供了文件命名格式为twitter_x_edges.csv的图表的截断版本,其