中国数据资产管理峰会-唯品会大数据.pptx
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
【唯品会大数据实践】 唯品会作为中国领先的在线时尚购物平台,其大数据实践涵盖了数据平台建设、大数据应用以及对未来的思考。以下是基于提供的部分内容详细阐述的几个关键知识点: 1. **数据平台建设** - **离线计算分析平台**:唯品会初期采用CDC调度与Greenplum结合,随着时间推移,逐步过渡到自有的调度平台和抽取系统,并引入Hadoop进行流量迁移。Greenplum在快速查询和分析师适应方面表现出色,但不足够可扩展,而Hadoop则提供了大规模的数据存储和处理能力。最终,他们构建了一个混合平台,结合了Greenplum的查询优势和Hadoop的可扩展性。 - **实时计算平台**:为了应对实时数据处理需求,唯品会构建了基于Binlog2Kafka和MySQL2Kafka的实时流处理系统,考虑过Spark与Storm的比较,最终选择了适合稳定性的解决方案,并面临Redis的挑战。开放平台策略允许自助ETL和报表开发。 2. **大数据应用建设** - **数据应用**:涵盖系统开发和运营,如数据仪表盘、数据魔方、比价系统和地图服务等。在业务和产品运营中,唯品会利用大数据进行恶意用户识别和风控,商品品牌推荐,以及个性化排序。 - **用户画像和Lookalike模型**:通过数据细分和人群分析,构建用户画像,支持精准推荐。 - **实时算法和预测**:使用VRC资源管理平台和实时训练分析,结合MLLib进行实时预测,提升用户体验。 3. **技术选型与经验** - **计算存储调度系统**:包括Hive、Presto、Spark、RHBase、Druid、HDFS、Redis Cluster等,这些工具共同构建了高效的大数据处理环境。 - **数据接入与处理**:使用Sqoop、VDP、Flume、Kafka进行数据接入和传输,Job调度和Yarn调度确保任务的有序执行。 - **监控与测试**:通过运维监控系统,确保平台的稳定性和性能。 4. **挑战与解决方案** - **离线平台演化**:随着业务增长,唯品会经历了多次平台升级,包括从CDC调度到自有调度平台,从单一系统到混合平台,以及从Hadoop流量迁移至交易数据迁移。 - **实时计算稳定性**:在实时计算平台的建设中,唯品会面临了如Redis容量和稳定性的问题,通过优化和选择适当的组件(如Redis和Hbase)来平衡性能和成本。 5. **未来规划** - **自助服务**:建设自助取数平台,鼓励数据分析的自助化,降低成本并提高效率。 - **数据服务与对外服务**:提供VRC开发者平台和数坊分析师平台,以更好地服务于内部和外部的业务需求。 唯品会在大数据领域的实践涵盖了从数据平台的构建到具体业务应用的实施,不断优化和调整以应对不断变化的业务需求和技术挑战。通过混合平台的建设和实时计算平台的演进,唯品会实现了大数据在各个层面的高效利用,为业务发展提供了强大支持。
剩余37页未读,继续阅读
- 粉丝: 229
- 资源: 2万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助