淘宝海量数据处理

1星(超过10%的资源)
所需积分/C币:10 2013-04-18 15:21:08 4.91MB PDF
1
收藏 收藏
举报

淘宝数据特点:数据量大、内容多样、维度丰富、源数据质量不高
淘宝网 误区 ●淘宝是一家电子商务公司 ●数据越多越值钱 海量只是数据量更大 云计算只是一个概念 11年11月26日星期六 淘宝网 传统海量数据产品误区 ●只关注分析处理性能,不关注数据査询性能 ●大型商业产品更好 ● Oracle/ Green plun可以解决大多数问题 IBM/EMO ●开源产品更好 Hadoop可以解决一切问题 Hadoop 成本更低 ●数据展现不重要 11年11月26日星期六 淘宝网 大纲 大数据在淘宝的挑战 ●分布式存储计算 实时计算 ●实时流处理 ●数据可视化 ●数据产品实践 11年11月26日星期六 淘宝网 大数据在淘宝的挑战 11年11月26日星期六 淘宝网 淘宝规模 P 20亿 商品数 97+ 用户数 4.4亿 品牌数 8万+ SPU 334万 每分钟销售商品 件数 48万件 高峰日成交金额52亿元 11年11月26日星期六 淘宝网 淘宝数据特点 数据量大 内容多样 ●日志型数据 文本数据 关系型数据 维度丰富 ●涵盖近100个不同行业的商品维度,五级商品类目体系 近80000个品牌 商品维度+卖家维度+买家维度 源数据质量不高 非法交易 ●恶意评价 用于自定义属性 11年11月26日星期六 淘宝网 挑战 ●20PB总量 ●900TB每天计算扫描数据量 月增1.5P 日增0.06P 高峰处理数据量:30G/s ●●● 11年11月26日星期六 淘宝网 挑战 ●数据的商业模式不清楚,缺乏足够的业务支撑 海量数据处理的基础技术需要大量的硏发投入 数据安全机制非常复杂,还要兼顾效率 ●开放的同时,需要防止数据被恶意爬取 基础设施的建设周期较长,可能赶不上业务的变化 ●数据自身变化演进,数据更新非常困难 11年11月26日星期六

...展开详情
试读 57P 淘宝海量数据处理
立即下载 低至0.43元/次 身份认证VIP会员低至7折
一个资源只可评论一次,评论内容不能少于5个字
liawof 忽悠人的东西,里面啥都没有,骗人的
2013-04-25
回复
您会向同学/朋友/同事推荐我们的CSDN下载吗?
谢谢参与!您的真实评价是我们改进的动力~
上传资源赚钱or赚积分
最新推荐
淘宝海量数据处理 10积分/C币 立即下载
1/57
淘宝海量数据处理第1页
淘宝海量数据处理第2页
淘宝海量数据处理第3页
淘宝海量数据处理第4页
淘宝海量数据处理第5页
淘宝海量数据处理第6页
淘宝海量数据处理第7页
淘宝海量数据处理第8页
淘宝海量数据处理第9页
淘宝海量数据处理第10页
淘宝海量数据处理第11页
淘宝海量数据处理第12页

试读结束, 可继续读6页

10积分/C币 立即下载 >