# Weibo_UsersRecommend
使用Spark GraphX基于PageRank算法构建一个仿微博用户好友的分布式推荐系统。
项目介绍以及说明:
[构建分布式微博好友推荐系统](https://blog.csdn.net/qq_37142346/article/details/82079374)
## 注意事项
1. 代码中文件的路径用户可以修改为自己数据所处的位置。
2. 需要启动hadoop集群,这里使用了hadoop2.5.0-cdh5.3.6。
3. 代码执行顺序:首先执行DataFormatUtil工具类进行数据清洗处理;然后执行CollectNeighborIds计算用户二级邻居;执行SortIdsByPageRank文件对用户二级邻居进行rank评分,并且进行排序;RecommendTop5User实现用户Top5好友的推荐。
4. 系统目录下的数据:relation.txt与secondIds.txt为测试数据。userrelation.txt与usersecondIds.txt为系统开发所用的数据。还有部分数据需要存储在HDFS文件系统中,需要注意。
5. 该项目使用Scala语言开发。
没有合适的资源?快使用搜索试试~ 我知道了~
基于Spark+PageRank算法构建仿微博用户好友的分布式推荐系统.zip
共14个文件
scala:8个
txt:5个
md:1个
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
5星 · 超过95%的资源 1 下载量 110 浏览量
2023-07-31
15:29:23
上传
评论 2
收藏 6.16MB ZIP 举报
温馨提示
该资源真实可靠,代码都经测试过,能跑通。 快速:Apache Spark以内存计算为核心。 通用 :一站式解决各个问题,ADHOC SQL查询,流计算,数据挖掘,图计算完整的生态圈。只要掌握Spark,就能够为大多数的企业的大数据应用场景提供明显的加速。存储层:HDFS作为底层存储,Hive作为数据仓库 (Hive Metastore:Hive管理数据的schema) 离线数据处理:SparkSQL (做数据查询引擎<===> 数据ETL) 实时数据处理:Kafka + Spark Streaming 数据应用层:MLlib 产生一个模型 als算法 数据展示和对接:Zeppelin 选用考量: HDFS不管是在存储的性能,稳定性 吞吐量 都是在主流文件系统中很占有优势的 如果感觉HDFS存储还是比较慢,可以采用SSD硬盘等方案。存储模块:搭建和配置HDFS分布式存储系统,并Hbase和MySQL作为备用方案。 ETL模块:加载原始数据,清洗,加工,为模型训练模块 和 推荐模块 准备所需的各种数据。 模型训练模块:负责产生模型,以及寻找最佳的模型。 推荐模块:包含离线推荐和实时推荐,离线推荐负责把推荐结果存储到存储系统中实时推荐负责产生实时的消息队列,并且消费实时消息产生推荐结果,最后存储在存储模块中。 数据展示模块:负责展示项目中所用的数据。 数据流向:数据仓库怎么理解?两种东西,其一是IBM微软数据产品为代表的,其二是Hadoop+Hive+Apache Hive数据仓库软件有助于使用SQL读取,写入和管理驻留在分布式存储中的大型数据集。 可以将结构投影到已经存储的数据上。 提供了命令行工具和JDBC驱动程序以将用户连接到Hive。
资源推荐
资源详情
资源评论
收起资源包目录
基于Spark+PageRank算法构建仿微博用户好友的分布式推荐系统.zip (14个子文件)
code
RecommendTop5User.scala 926B
relation.txt 53B
hanhan_usersecondIds.txt 279KB
SortIdsByPageRank.scala 2KB
GraphNeighborUtil.scala 2KB
usersecondIds.txt 121KB
DataFormatUtil.scala 1KB
userrelation.txt 22.7MB
HashSetUtil.scala 508B
GraphxUtil.scala 712B
FileUtil.scala 1KB
README.md 960B
secondIds.txt 6B
CollectNeighborIds.scala 2KB
共 14 条
- 1
资源评论
- m0_623472622023-09-11资源很实用,内容详细,值得借鉴的内容很多,感谢分享。
c++服务器开发
- 粉丝: 3176
- 资源: 4461
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功