易观⼤数据算法

yiguan

易观⼤数据算法

思想

主要技术点采⽤了 HDFS作为存储， Spark作为数据预处理和核⼼过滤算法实现。

整个解决⽅案分为两⼤部分：

数据的预处理

查询算法实现

1.数据的预处理

1. 在数据预处理阶段，我们按⽤户进⾏了聚合，去除了对于我们⽆⽤的字段，将每⾏作为⼀个⽤户的操作集

合，按时间戳排序。

2. 时间上统⼀减去了起始时间（20170501的UTC 时间），并除以10，将long型变为了Int型存储。

3. 操作id 只保留了后两位，这已经可以作为唯⼀标识。

数据预处理的核⼼代码

var data =

sc.textFile(args(0))

.map(_.split("\t+"))

.filter(_.length > 5)

.map(items => {

val userId = items(0)

val timestamp = ((items(1).toLong - 1493568000000L)/10).toInt

val opId = items(2).substring(2).toInt

val params = items(4)

(userId, timestamp, opId, params)

})

// 预处󰇹数据

data

.groupBy(_._1)

.map((x) => {

var rs = ""

x._2.toArray.sortBy(_._2)

.foreach((item) => {

rs += item._3 + "|" + item._2 + "|" + item._4 + "|"

})

rs

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

易观大数据算法1

评论0

X易观暖情人消费趋势数据报告-官网版.pdf

易观分析-中国假-旅游市场数据回顾2020-2020.11-18页精品报告2020.pdf

易观数据---移动出行市场年度分析2020-2020.5.28-59页精品报告2020.pdf

顶级投行、金融估值建模培训资料-随手记X易观暖情人消费趋势数据报告-官网版.pdf

20221215-易观智库&咪咕数据研究院-互联网传媒行业：中国在线视频用户观看行为洞察2022.pdf

大数据算法导论第四周

全国工业和信息化技术技能大赛-工业大数据算法赛项资料

清华大学大数据算法基础课程

《大数据算法》┊王宏志PDF

20190621_巅峰论坛_从0到N建立支持AI的大数据中台_郭炜 易观CTO.pdf

易观方舟&达观数据：证券行业私域客户运营白皮书（2021）.pdf

易观-云集微店社交电商数据白皮书2017_20170627.pdf

2018年上半年网民行为分析-易观数据-2018.12.pdf

Go-易观第二届OLAP漏斗算法大赛

大数据算法 王宏志

大数据算法

大数据算法视频课程+课件

大数据算法导论第六周

大数据算法大全

易观_IOTA 数据架构.rar

20191127-易观国际-中国大数据应用市场专题分析.pdf

易观智库2013Q2互联网数据发布

房产java源码-Backquarter:易观开源大数据互联网百亿级记录互传Backquarter项目

易观-中国大数据应用市场专题分析-2019.11.27-33页.pdf

大数据算法 百度网盘

非常牛的大数据算法

大数据算法分析第一周

大数据算法_王宏志

大数据算法概述

最新资源

20190621_巅峰论坛_从0到N建立支持AI的大数据中台_郭炜易观CTO.pdf

大数据算法王宏志

大数据算法百度网盘