藏经阁-EMR弹性低成本离线大数据分析最佳实践.pdf
"藏经阁-EMR弹性低成本离线大数据分析最佳实践" 本文档介绍了阿里云智能EMR弹性低成本离线大数据分析的最佳实践,旨在帮助客户更好地理解阿里云的产品和解决方案,降低企业上云门槛的同时满足客户自服务的需求。 E-MapReduce产品功能亮点 * 弹性可视化集群管理控制台:基于云的特性,获得资源的弹性,计算资源弹性、存储资源弹性。 * 灵活的弹性集群:计算与存储分离,需要时添加计算节点,动态计算组,按照集群状态进行伸缩,使用Spot Instance,包月+按量组合。 * 多样存储选择:HDFS、Alibaba HDFSOSS(Standard)、EBS(Cloud Disk)、D1(Local Disk)、I1/I2(Local Disk),数据可靠后台多副本、成本高性能低,数据全部走网络,没有本地计算性能高,成本低数据易丢失,运维成本高。 E-MapReduce架构选型 * Master主实例:适合通用型或内存型实例,数据直接使用阿里云的云盘来保存,有三个备份的保证,数据高可靠。 * Core核心实例:小数据量(TB级别以下)或者是使用OSS作为主要的数据存储时,可以使用通用型、计算型或内存型。 * Task计算实例:作为集群的计算能力的补充,可以使用除大数据型以外的所有机型。 * Gateway实例:选择范围很大,没有特别的约束,推荐使用云盘。 E-MapReduce存储选型 * 云盘与本地盘:云盘包括SSD云盘、高效云盘、普通云盘;本地盘包括大数据型的SATA本地盘和本地SSD盘。 * OSS:在EMR中可以将OSS作为HDFS使用,用户可以非常方便地读写OSS,所有使用HDFS的代码也可以简单修改就能访问OSS的数据。 EMR + Spot Instance + OSS * 通过冷热数据分离,使用OSS保存冷数据,降低成本。 * 通过OSS做Data Lake,通过OSS来打通上层的计算&使用应用。 * 通过数据的分离,可以不断地进行计算引擎的升级。 大数据分析应用场景 * 海量离线数据分析:应用于电商海量日志分析、用户行为画像分析、科研行业的海量离线计算分析任务分析场景。 * 互联网、科学计算等行业用语海量数据离线分析、BI分析等。 Step by Step步骤 1. 电商网站Demo搭建&日志收集到SLS。 2. 日志通过SLS投递到OSS。 3. EMR消费分析OSS的数据。 本文档详细介绍了阿里云智能EMR弹性低成本离线大数据分析的最佳实践,旨在帮助客户更好地理解阿里云的产品和解决方案,降低企业上云门槛的同时满足客户自服务的需求。
- 粉丝: 85
- 资源: 1万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- (源码)基于Django和OpenCV的智能车视频处理系统.zip
- (源码)基于ESP8266的WebDAV服务器与3D打印机管理系统.zip
- (源码)基于Nio实现的Mycat 2.0数据库代理系统.zip
- (源码)基于Java的高校学生就业管理系统.zip
- (源码)基于Spring Boot框架的博客系统.zip
- (源码)基于Spring Boot框架的博客管理系统.zip
- (源码)基于ESP8266和Blynk的IR设备控制系统.zip
- (源码)基于Java和JSP的校园论坛系统.zip
- (源码)基于ROS Kinetic框架的AGV激光雷达导航与SLAM系统.zip
- (源码)基于PythonDjango框架的资产管理系统.zip