没有合适的资源?快使用搜索试试~ 我知道了~
案例正文_网易云音乐大数据系统1
需积分: 0 7 下载量 169 浏览量
2022-08-08
18:41:58
上传
评论 1
收藏 2.19MB DOCX 举报
温馨提示
试读
27页
摘要网易云音乐作为国内主流的在线音乐提供平台之一,拥有大量的入驻歌手、音乐资源与活跃用户,既为用户提供丰富多样的音乐资源,又发展出了极具特色的评论区,产生了大量
资源详情
资源评论
资源推荐
网易云音乐大数据系统构建
作者:王彬,陈香,林丽,谭学,杨磊,冯永
单位:重庆大学,计算机学院
案例版权:该案例归重庆大学计算机学院所有
涉及的知识点:网络爬虫、Hadoop 、Spark、图数据库、贝叶斯分类器、LSTM
案例来源及案例真实性情况:该案例来源于重庆大学计算机学院专业硕士
(电子信息)课程《大数据架构与技术》中的学生精选汇编课程设计。
摘要 网易云音乐作为国内主流的在线音乐提供平台之一,拥有大量的入驻
歌手、音乐资源与活跃用户,既为用户提供丰富多样的音乐资源,又发展出了极
具特色的评论区,产生了大量的社交数据,深受青年用户的喜爱,并获得了“云
村故事会”、“网抑云”等特色标签。基于网易云音乐的海量音乐数据与社交数据,
使用大数据分析与挖掘技术,可得到以往的音乐流行趋势、歌手流行趋势、用户
喜好等多个维度的信息,并在此基础上预测未来的发展情况。本案例以构建网易
云音乐大数据系统为主题,使用爬取网易云音乐官方网站的数据构建数据集,结
合数据挖掘、机器学习等相关方法进行评论情感分析以及对用户进行歌曲、歌手
个性化推荐。本案例核心内容有:(1)使用 Hadoop 和 Spark 搭建服务平台;
(2)使用网络爬虫进行网易云音乐官方网站的数据爬取和存储;(3)使用
SVM、贝叶斯模型、LSTM 以及 BERT 等模型进行评论情感分析;(4)基于图
结构数据对用户进行歌曲、歌手推荐。
关键词:音乐大数据分析、网络爬虫、Hadoop 、Spark、图数据库、机器学
习、深度学习
1 引言
该教学案例来源于重庆大学计算机学院专业硕士(电子信息)课程《大数据
架构与技术》中的学生精选汇编课程设计。该案例以构建网易云音乐大数据系统
为具体问题,需引导学生进行的主要内容有:(1)使用 Hadoop 和 Spark 搭建服
务平台;(2)使用网络爬虫进行网易云音乐官方网站的数据爬取和存储;(3)使
用 SVM、贝叶斯模型、LSTM 以及 BERT 等模型进行评论情感分析;(4)基于
图结构数据对用户进行歌曲、歌手推荐。
2 背景介绍
近年来各种音乐软件层出不穷,网易云音乐作为国内主流的在线音乐提供平
台之一,拥有大量的入驻歌手、音乐资源与活跃用户,既为用户提供丰富多样的
音乐资源,又发展出了极具特色的评论区,产生了大量的社交数据,深受青年用
户的喜爱,并获得了“云村故事会”、“网抑云”等特色标签。基于网易云音乐的
海量音乐数据与社交数据,使用大数据分析与挖掘技术,可以得到以往的音乐流
行趋势、歌手流行趋势、用户喜好等多个维度的信息,并在此基础上预测未来的
发展情况。另外,基于网易云音乐的大量评论文本数据,使用自然语言处理技术,
可以分析用户评论所包含的情感信息及“抑郁”属性,深入了解当代青年人的心
理状态与需求,对广告个性化投放、情感类产品研发等实际应用场景都有重要价
值,亦可以结合音乐大数据为用户进行歌曲推荐、歌手推荐、好友推荐等。因此,
对网易云音乐中的大数据进行分析,是非常有研究价值的一个课题。在本案例中,
我们选取网易云音乐大数据系统的构建作为主要研究问题,借助大数据分析与处
理、数据挖掘、机器学习等相关方法,实现评论情感分析以及对用户进行歌曲、
歌手个性化推荐。
3 内容
该案例的主要内容主要分为四个小节,分别为搭建 Hadoop/Spark 平台、网
易云音乐官方网站的数据爬取和存储、评论情感分析以及基于图数据库中特定关
系的匹配对用户进行歌曲、歌手推荐。
3.1 Hadoop/Spark 介绍与平台搭建
3.1.1 Hadoop 介绍
Hadoop 是 Apache 软件基金会旗下的一个开源分布式计算平台,为用户提供
了系统底层细节透明的分布式基础架构,在分布式环境下提供了海量数据的处理
能力。Hadoop 是基于 Java 开发的,具有优异跨平台特性,并可部署在廉价的计
算机集群中,其核心是分布式文系统 HDFS(Hadoop Distributed File System)和
MapReduce。
以下是 Hadoop2.0 时期架构,引入了 YARN 分布式框架等。
图 1 Hadoop2.0 时期架构
Hadoop 是一个能够对大量数据进行分布式处理的软件框架,并且是以一种
可靠、高效、可伸缩的方式进行处理的,它具有高效性,成本低,开源等特性。
Hadoop 凭借其突出的优势,已经在各个领域得到了广泛的应用,而互联网领域
是其应用的主阵地。目前,几乎所有主流厂商围绕 Hadoop 提供开发工具、开源
软件、商业化工具和服务。
3.1.2 Hadoop 环境搭建
首先按照以下步骤创建两个服务器。
一、配置阿里源
1. 切换到 yum 仓库
cd /etc/yum.repos.d/
2.备份下原 repo 文件
mv CentOS-Base.repo CentOS-Base.repo.backup
3. 下载阿里云 repo 文件
wget-O/etc/yum.repos.d/CentOS-7.repo
http://mirrors.aliyun.com/repo/Centos-7.repo
4. 设置默认的 repo 文件
mv CentOS-7.repo CentOS-Base.repo
5. 生成缓存
yum clean all
yum makecache
二、python 安装
1. yum 查找 python3
yum list python3
2. yum 安装 python3
yum install python3.x86_64
三、配置 hadoop 用户
1. 创建用户
useradd -m hadoop -s /bin/bash
同时设置用户密码:123456
passwd hadoop
2. 配置权限
为了方便,给用户 hadoop 等同 root 权限:
visudo # 执行 visudo 命令进入 vim 编辑
hadoop ALL=(ALL) #添加配置权限
四、配置 SSH
1.生成密钥
cd ~/.ssh/ # 切换目录到 ssh 下
ssh-keygen -t rsa # 生成密钥
2.授权
cat id_rsa.pub >> authorized_keys # 加入授权
3.修改权限
chmod 600 ./authorized_keys # 修改文件权限
4.测试
ssh localhost # ssh 登陆,不用输入密码直接登录成功则说明配置成
功
五、配置 Java 环境
1. 安装 JDK
sudo yum install java-1.8.0-openjdk java-1.8.0-openjdk-devel
2. 配置环境变量
vim ~/.bashrc # vim 编辑配置文件
# 在文件后面添加如下单独一行(指向 JDK 的安装位置),并保存
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk
source ~/.bashrc #是环境变量生效,执行
3. 测试
echo $JAVA_HOME # 检验变量值
java –version #正确配置会输出 java 版本号
六、安装 hadoop
1. 下载
Wet –O hadoop-2.8.5.tar.gz
https://mirrors.cnnic.cn/apache/hadoop/common/hadoop2.8.5/hadoop-2.8.5.tar.gz
2. 解压
tar -zxf hadoop-2.8.5.tar.gz -C /usr/local
3. 修改文件
cd /usr/local/ # 切换到解压目录下
sudo mv ./hadoop-2.8.5/ ./hadoop # 将 hadoop-2.8.5 重命名 hadoop
sudo chown -R hadoop:hadoop ./hadoop # 修改文件权限
4. 测试
cd /usr/local/hadoop # 切换到 hadoop 目录下
./bin/hadoop version # 输出 hadoop 版本号
其次,进行 Hadoop 分布式集群搭建。
一、修改主机名
将两台服务器的主机名分别修改为 master、 slave01。两台云服务器的内网
IP、外网 IP 如下:
表 3.1 两台云服务器内/外网 IP 分配
主机名
内网 IP
外网 IP
master
172.17.58.185
47.103.193.58
slave01
172.25.22.124
182.92.238.70
二、修改 hosts
分别在两个服务器上运行 shell 命令 sudo vim /etc/hosts,编辑 hosts 文件如下:
1.在 master 上
127.0.0.1 localhost
172.17.58.185 master # master 必须用内网 IP
182.92.238.70 slave01 # slave01 用外网 IP
2. 在 salve01 上
127.0.0.1 localhost
47.103.193.58 master # master 必须用外网 IP
172.25.22.124 slave01 # slave01 用内网 IP
剩余26页未读,继续阅读
俞林鑫
- 粉丝: 14
- 资源: 288
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0