没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
第 11 章 Hive 实战
11.1 需求描述
统计 Youtube 视频网站的常规指标,各种 TopN 指标:
--统计视频观看数 Top10
--统计视频类别热度 Top10
--统计视频观看数 Top20 所属类别
--统计视频观看数 Top50 所关联视频的所属类别 Rank
--统计每个类别中的视频热度 Top10
--统计每个类别中视频流量 Top10
--统计上传视频最多的用户 Top10 以及他们上传的视频
--统计每个类别视频观看数 Top10
11.2 项目
11.2.1 数据结构
1.视频表
表 6-13 视频表
字段
备注
详细描述
video id
视频唯一 id
11 位字符串
uploader
视频上传者
上传视频的用户名 String
age
视频年龄
视频上传日期和 2007 年 2 月 15 日之间
的整数天(Youtube 的独特设定)
category
视频类别
上传视频指定的视频分类
length
视频长度
整形数字标识的视频长度
views
观看次数
视频被浏览的次数
rate
视频评分
满分 5 分
ratings
流量
视频的流量,整型数字
conments
评论数
一个视频的整数评论数
related ids
相关视频 id
相关视频的 id,最多 20 个
2.用户表
表 6-14 用户表
字段
备注
字段类型
uploader
上传者用户名
string
videos
上传视频数
int
friends
朋友数量
int
11.2.2 ETL 原始数据
通过观察原始数据形式,可以发现,视频可以有多个所属分类,每个所属分类用&符号
分割,且分割的两边有空格字符,同时相关视频也是可以有多个元素,多个相关视频又用
“\t”进行分割。为了分析数据时方便对存在多个子元素的数据进行操作,我们首先进行数
据重组清洗操作。即:将所有的类别用“&”分割,同时去掉两边空格,多个相关视频 id
也使用“&”进行分割。
例子:
LKh7zAJ4nwo TheReceptionist 653 Entertainment 424 13021 4.34 1305 744
DjdA-5oKYFQ NxTDlnOuybo c-8VuICzXtU DH56yrIO5nI W1Uo5DQTtzc
E-3zXq_r4w0 1TCeoRPg5dE yAr26YhuYNY 2ZgXx72XmoE -7ClGo-YgZ0
vmdPOOd6cxI KRHfMQqSHpk pIMpORZthYw 1tUDzOp10pkheqocRij5P0
_XIuvoH6rUg LGVU5DsezE0 uO2kj6_D8B4xiDqywcDQRM uX81lMev6_o
1.ETL 之 ETLUtil
package video;
public class ETLUtil {
public static String oriString2ETLString(String ori){
StringBuilder etlString = new StringBuilder();
String[] splits = ori.split("\t");
//如果没有相关视频 length:9
if(splits.length < 9) return null;
splits[3] = splits[3].replace(" ", "");
for(int i = 0; i < splits.length; i++){
if(i < 9){
//当 i:8 的时候不加 tab
if(i == splits.length - 1){
etlString.append(splits[i]);
}else{
etlString.append(splits[i] + "\t");
}
}else{//当存在相关视频
//同上,最后一个不加&,其他的都加&
if(i == splits.length - 1){
etlString.append(splits[i]);
}else{
etlString.append(splits[i] + "&");
}
}
}
return etlString.toString();
}
}
2.ETL 之 Mapper
package video;
import java.io.IOException;
import org.apache.commons.lang.StringUtils;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
public class VideoETLMapper extends Mapper<Object, Text, NullWritable, Text>{
Text text = new Text();
@Override
protected void map(Object key, Text value, Context context) throws IOException,
InterruptedException {
String etlString = ETLUtil.oriString2ETLString(value.toString());
if(StringUtils.isBlank(etlString)) return;
text.set(etlString);
context.write(NullWritable.get(), text);
}
}
3.ETL 之 Job
package video;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.Tool;
public class VideoJob extends Configured implements Tool {
public static void main(String[] args) {
try {
new VideoJob().run(args);
} catch (Exception e) {
e.printStackTrace();
剩余11页未读,继续阅读
资源评论
xiang_zi_gege
- 粉丝: 21
- 资源: 2
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功