项目总述
主要任务是从之前同项目的组员建的图形数据库里提取出我们需要的GitHub的数据,并把结果保存到文件,以便之后插入到数据库。
从已经建立好的图形数据库上多线程地读取GitHub的项目信息。主要信息包括项目的名称,用户名,被Star的数量,是否被fork,以及该项目用到的编程语言。
在统计之前的neo4j数据库长这样,其中紫色的是项目信息,蓝色的是用户信息,灰色的是commit信息,这些大量的信息中我们需要提取出我们需要的数据:
结果呈现
实验室的分项目,运行需要内网。最后的结果保存在ssh root@192.168.7.106:usr/zy里的30个out点txt文件。
最后的输出文件大致如下:
插入到数据库之后的数据(该数据放在192.168.7.118的mysql上)
一些注意点
user和starNum这两个信息不是project里所属的字段,而是通过有边连接来查询相应的数据
评论0
最新资源