没有合适的资源?快使用搜索试试~ 我知道了~
⼤数据技术 ⼤数据技术——数据处理和分析 数据处理和分析 ⼤数据技术 ⼤数据技术——数据处理和分析 数据处理和分析 场景:数据清洗,数据规范化,统计分析等。 1. 实时处理 实时处理 对于实时数据及时处理,并输出结果。 推荐技术: SPARK STEAMING:⼀⼩段时间的批数据进⾏处理并产出。⽀持交互查询, STROM:纯实时处理,来⼀条处理⼀条。低延时,⾼容错性。 对于这两个技术,也是针对于应⽤场景的,假如不能忍受⾼延时且不需要复杂的交互查询则⽤STROM,否则⼀般⽤SPARK STREAMING。 2. 离线处理 离线处理 对于离线批数据的处理。 推荐技术: HIVE:类SQL的语法,SQL ON MAPREDUCE, 低开发成本。也可以⽤JAVA写UDF。 MAPREDUCE:JAVA编写MAP程序,REDUCE程序 SPARK:SCALA或者PYTHON开发,也⽀持SQL。 HIVE与MAPREDUCE的⽐较: HIVE提交的SQL会转化成MAPREDUCE的任务去执⾏。 HIVE的开发成本不⾼,优先⽤SQL解决问题。否则需要写UDF或者选择MAPREDUCE来解决问题。 HIVE和SPARK的⽐较: 本质上,SPARK计算引擎⽐MAPREDUCE计算引擎⾼效得多。 但SPARK是基于内存的分布式计算,数据⼤⼩最好不超过集群资源内存总量太多。否则变得⾮常低效。 以上推荐的技术是⾏业内常⽤的技术。但不唯⼀。
资源推荐
资源详情
资源评论
⼤数据技术⼤数据技术——数据处理和分析数据处理和分析
⼤数据技术⼤数据技术 ——数据处理和分析数据处理和分析
场景:数据清洗,数据规范化,统计分析等。
1. 实时处理实时处理
对于实时数据及时处理,并输出结果。
推荐技术:
SPARK STEAMING:⼀⼩段时间的批数据进⾏处理并产出。⽀持交互查询,
STROM:纯实时处理,来⼀条处理⼀条。低延时,⾼容错性。
对于这两个技术,也是针对于应⽤场景的,假如不能忍受⾼延时且不需要复杂的交互查询则⽤STROM,否则⼀般⽤SPARK
STREAMING。
2. 离线处理离线处理
对于离线批数据的处理。
推荐技术:
HIVE:类SQL的语法,SQL ON MAPREDUCE, 低开发成本。也可以⽤JAVA写UDF。
MAPREDUCE:JAVA编写MAP程序,REDUCE程序
SPARK:SCALA或者PYTHON开发,也⽀持SQL。
HIVE与MAPREDUCE的⽐较:
HIVE提交的SQL会转化成MAPREDUCE的任务去执⾏。
HIVE的开发成本不⾼,优先⽤SQL解决问题。否则需要写UDF或者选择MAPREDUCE来解决问题。
HIVE和SPARK的⽐较:
本质上,SPARK计算引擎⽐MAPREDUCE计算引擎⾼效得多。
但SPARK是基于内存的分布式计算,数据⼤⼩最好不超过集群资源内存总量太多。否则变得⾮常低效。
以上推荐的技术是⾏业内常⽤的技术。但不唯⼀。
资源评论
是空空呀
- 粉丝: 168
- 资源: 3万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功