本次分享主要从三个方面介绍京东流量场下的数据 处 理 方 案 ,同 时 也会结合京东实际 场 景 案 例 ,介绍 京 东 在 流 量 场 下的一些数据应
用和实践 。
全文会围 绕 以 下 三 方 面 内 容 展 开 :
京东零售 流 量 数 仓 架 构
京东零售 场 景 的 数 据 处 理
数据处理 架 构 未 来 探 索
01
京东零售流量数仓架构
1. 京东零售 — — 流量简介
① 什么是流量?
简单来说,流量就是用户作用在京东页面上,产生一系列行为数据的集合。
② 流量数据的来源
数据来源主要是移动端和 PC 端,以及线下店、外部采买、合作商的数据等。
这些数据是如何流转到数仓的呢?
2. 京东零售 — — 流量数据处理架构
由架构图可以看出,对不同的终端采取不同的采集模式;例如,对 APP 原生页面采取 SDK 的采集
模式,对于 PC、H5 页面是 JS 采集,数据采集后按照实时和离线双写,离线直接写到 CFS 分布式
文件系统中,每小时从 CFS 拉取数据文件,同时对数据文件大小、采集 ip 进行监控,防止数据丢
失;实时是以白名单的方式动态配置,写到 kafka 中,最后将数据入仓。