"阿里云 JindoFS+OSS 数据上云实战" 阿里云 JindoFS+OSS 数据上云实战是阿里云基于 OSS 的一揽子数据湖存储优化方案,完全兼容 Hadoop/Spark 生态,并针对 Spark、Hive、Flink、Presto 等大数据组件和 AI 生态实现了大量扩展和优化。以下是从阿里云 JindoFS+OSS 数据上云实战中所涉及到的知识点: 1. JindoFS 介绍:JindoFS 是阿里云基于 OSS 的一揽子数据湖存储优化方案,包括 JindoFS OSS 支持、JindoFS 分布式缓存系统(JindoFS Cache 模式)和 JindoFS 分布式存储优化系统(JindoFS Block 模式)。 2. JindoSDK 介绍:JindoSDK 是各个计算组件可以用来使用 JindoFS 这些优化扩展功能和模式的套件,包括 Hadoop Java SDK、Python SDK 和 Fuse/POSIX 支持。 3. 数据迁移:JindoFS 提供了高效的数据迁移方式,包括 DistCp 和 JindoDistCp,支持多种数据源,如 HDFS、OSS、S3 和 COS 等。 4. DistCp 介绍:DistCp 是一个分布式的文件拷贝工具,使用 Map/Reduce 进行文件分发、错误处理和恢复以及报告生成。 5. JindoDistCp 介绍:JindoDistCp 是阿里云 EMR 团队开发的针对 OSS 上数据迁移的拷贝工具,支持 HDFS、OSS、S3 和 COS 等数据源之间的数据迁移。 6. 数据无忧:JindoFS 提供了多种方式来确保数据安全,包括 Checksum 迁移 HDFS 数据到 OSS。 7. 高效迁移 HDFS 海量文件到 OSS:JindoFS 提供了高效的数据迁移方式,包括使用 JindoDistCp 和 Checksum 迁移 HDFS 海量文件到 OSS。 8. OSS 访问加速:JindoFS 提供了多种方式来加速 OSS 访问,包括使用 JindoSDK 和 JindoFS Cache 模式。 9. Hadoop/Spark 访问 OSS 加速:JindoFS 提供了多种方式来加速 Hadoop/Spark 访问 OSS,包括使用 JindoSDK 和 JindoFS Cache 模式。 10. Flink 高效 sink 写入 OSS:JindoFS 提供了高效的 Flink sink 写入 OSS 的方式。 11. Presto 高效查询 OSS 数据:JindoFS 提供了高效的 Presto 查询 OSS 数据的方式。 12. Impala 高效查询 OSS 数据:JindoFS 提供了高效的 Impala 查询 OSS 数据的方式。 13. 开放 OSS 多版本:JindoFS 提供了开放 OSS 多版本的方式,包括合规和分析两不误。 14. JindoFS 缓存加速:JindoFS 提供了缓存加速的方式,包括 Spark 访问 OSS 透明缓存加速和 Presto 访问 OSS 透明缓存加速。 15. 云上计算云下数据:JindoFS 提供了云上计算云下数据的方式,包括 HDFS 缓存加速和 Fluid+JindoFS 对 OSS 上的数据进行训练加速。 16. AI 训练加速:JindoFS 提供了 AI 训练加速的方式,包括 Fluid+JindoFS 对 HDFS 上的数据进行训练加速和 Fluid+JindoFS 对海量小文件的训练加速。 17. JindoTable 计算加速:JindoFS 提供了 JindoTable 计算加速的方式,包括 Spark 对 OSS 上的 Parquet 数据进行查询加速和 Spark 对 OSS 上的 ORC 数据进行查询加速。 18. 分层更高效,对 Hive 数仓进行热度/冷度统计:JindoFS 提供了分层更高效的方式,对 Hive 数仓进行热度/冷度统计。 19. 对 Hive 数仓表进行高效小文件合并:JindoFS 提供了对 Hive 数仓表进行高效小文件合并的方式。 阿里云 JindoFS+OSS 数据上云实战提供了一个完整的数据湖存储优化方案,涵盖了数据迁移、数据访问、数据分析和 AI 训练等多个方面。
- 粉丝: 376
- 资源: 1448
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助