![](https://csdnimg.cn/release/downloadcmsfe/public/img/no-data.51c5211b.png)
![](https://csdnimg.cn/release/downloadcmsfe/public/img/good-course.ff455529.png)
- 大数据技术与应用大赛题库大数据大小:166KB赛项以大数据技术与应用为核心内容和工作基础,重点考查参赛选手基于Spark、Flink平台环境下,充分利用Spark Core、Spark SQL、Flume、Kafka、Flink等技术的特点,综合软件开发相关技术,解决实际问题的能力,具体包括: 掌握基于Spark的离线分析平台、基于Flink的实时分析平台,按照项目需求安装相关技术组件并按照需求进行合理配置; 掌握基于Spark的离线数据抽取相关技术,完成指定数据的抽取并写入Hive分区表中; 综合利用Spark Core、Spark SQL等技术,使用Scala开发语言,完成某电商系统数据的离线统计服务,包括销量前5商品统计、某月的总销售额统计、每个月的销售额统计、每个用户在线总时长统计,并将统计结果存入MySQL数据库中; 综合利用Flume、Flink相关技术,使用Scala开发语言,完成将某电商系统的用户操作日志抽取到Kafka中,消费Kafka中的数据并计算商城在线人数,并统计该电商系统的UV与PV;赛项以大数据技术与应用为核心内容和工作基础,重点考查参赛选手基于Spark、Flink平台环境下,充分利用Spark Core、Spark SQL、Flume、Kafka、Flink等技术的特点,综合软件开发相关技术,解决实际问题的能力,具体包括: 掌握基于Spark的离线分析平台、基于Flink的实时分析平台,按照项目需求安装相关技术组件并按照需求进行合理配置; 掌握基于Spark的离线数据抽取相关技术,完成指定数据的抽取并写入Hive分区表中; 综合利用Spark Core、Spark SQL等技术,使用Scala开发语言,完成某电商系统数据的离线统计服务,包括销量前5商品统计、某月的总销售额统计、每个月的销售额统计、每个用户在线总时长统计,并将统计结果存入MySQL数据库中; 综合利用Flume、Flink相关技术,使用Scala开发语言,完成将某电商系统的用户操作日志抽取到Kafka中,消费Kafka中的数据并计算商城在线人数,并统计该电商系统的UV与PV;
0 11浏览
会员免费 - Hadoop大数据技术-pig操作hadoop大小:998BHadoop大数据技术-pig操作Hadoop大数据技术-pig操作
0 12浏览
会员免费 - kettle下载-一款免费开源ETL工具软件/插件大小:861MBkettle下载-一款免费开源ETL工具kettle下载-一款免费开源ETL工具
0 17浏览
会员免费 - 大数据实训,使用文件,包含Hadoop和Scala的scala大小:634MBHadoop-2.7.0,scala,nodejs , spark-2.4.4-bin-Hadoop2.7 ,apache-tomcat-9.0.73 , apache-maven-3.9.1Hadoop-2.7.0,scala,nodejs , spark-2.4.4-bin-Hadoop2.7 ,apache-tomcat-9.0.73 , apache-maven-3.9.1
0 11浏览
会员免费 - Python中Hadoop MapReduce的一个简单示例.ziphadoop大小:710KBmapreduce基础实战mapreduce基础实战
0 14浏览
会员免费 - nosql精通教学PPT资源包nosql大小:22MBnosql精通教学PPT资源包 Mongodb资料 Redis资料 HBase资料nosql精通教学PPT资源包 Mongodb资料 Redis资料 HBase资料nosql精通教学PPT资源包 Mongodb资料 Redis资料 HBase资料nosql精通教学PPT资源包 Mongodb资料 Redis资料 HBase资料nosql精通教学PPT资源包 Mongodb资料 Redis资料 HBase资料nosql精通教学PPT资源包 Mongodb资料 Redis资料 HBase资料nosql精通教学PPT资源包 Mongodb资料 Redis资料 HBase资料nosql精通教学PPT资源包 Mongodb资料 Redis资料 HBase资料nosql精通教学PPT资源包 Mongodb资料 Redis资料 HBase资料nosql精通教学PPT资源包 Mongodb资料 Redis资料 HBase资料nosql精通教学PPT资源包 Mongodb资料 Redis资料 HBase资料nosql精通教学PPT资源包 Mongodb资料 Redis资料 HBase资料nosql精通教学PPT资源包 Mongodb资料 Redis资料 HBase资料nosql精通教学PPT资源包 Mongodb资料 Redis资料 HBase资料nosql精通教学PPT资源包 Mongodb资料 Redis资料 HBase资料nosql精通教学PPT资源包 Mongodb资料 Redis资料 HBase资料nosql精通教学PPT资源包 Mongodb资料 Redis资料 HBase资料nosql精通教学PPT资源包 Mongodb资料 Redis资料 HBase资料
0 16浏览
会员免费 - ETL工具-Nifi MS SQL订单Header&Detail数据同步/迁移解决方案软件/插件大小:2MBETL工具-Nifi MS SQL订单Header&Detail数据同步/迁移解决方案,主从表同步ETL工具-Nifi MS SQL订单Header&Detail数据同步/迁移解决方案,主从表同步
0 12浏览
会员免费 - 大数据ETL工具软件kettle-spoon 9.4大数据大小:368MB数据交换,抽取-转换-加载,能实现同构表、异构表之间的数据抽取、转换、加载功能数据交换,抽取-转换-加载,能实现同构表、异构表之间的数据抽取、转换、加载功能
0 64浏览
会员免费 - πFlow是一个简单易用,功能强大的大数据流水线系统大数据大小:94MB简单易用 可视化配置流水线 监控流水线 查看流水线日志 检查点功能 流水线调度 扩展性强: 支持自定义开发数据处理组件 性能优越: 基于分布式计算引擎Spark开发 功能强大: 提供100+的数据处理组件 包括Hadoop 、Spark、MLlib、Hive、Solr、Redis、MemCache、ElasticSearch、JDBC、MongoDB、HTTP、FTP、XML、CSV、JSON等 集成了微生物领域的相关算法简单易用 可视化配置流水线 监控流水线 查看流水线日志 检查点功能 流水线调度 扩展性强: 支持自定义开发数据处理组件 性能优越: 基于分布式计算引擎Spark开发 功能强大: 提供100+的数据处理组件 包括Hadoop 、Spark、MLlib、Hive、Solr、Redis、MemCache、ElasticSearch、JDBC、MongoDB、HTTP、FTP、XML、CSV、JSON等 集成了微生物领域的相关算法
0 16浏览
会员免费 - 大数据入门学习教程.zip大数据大小:194KB大数据开发是一个涉及多个领域和技术的复杂过程,但通过系统性的学习和实践,你可以逐步掌握相关的技能和知识。以下是一个大数据开发的入门学习教程,帮助你了解大数据开发的基本概念、技术和工具。 一、了解大数据基础 定义与特点:首先,了解大数据的定义和特点,包括数据量大、类型多样、处理速度快等。 核心价值:理解大数据在业务决策、市场趋势预测、个性化推荐等方面的应用价值。 二、掌握大数据技术栈 数据存储与管理:学习分布式文件系统(如HDFS)和数据库技术(如HBase、Cassandra等),了解它们在大数据存储和管理方面的优势。 数据处理与分析:熟悉批处理框架(如Apache Spark)和流处理框架(如Apache Flink),了解它们在不同场景下的应用。 数据挖掘与机器学习:学习数据挖掘算法和机器学习技术,如分类、聚类、回归分析等,以发现数据中的模式和价值。大数据开发是一个涉及多个领域和技术的复杂过程,但通过系统性的学习和实践,你可以逐步掌握相关的技能和知识。以下是一个大数据开发的入门学习教程,帮助你了解大数据开发的基本概念、技术和工具。 一、了解大数据基础 定义与特点:首先,了解大数据的定义和特点,包括数据量大、类型多样、处理速度快等。 核心价值:理解大数据在业务决策、市场趋势预测、个性化推荐等方面的应用价值。 二、掌握大数据技术栈 数据存储与管理:学习分布式文件系统(如HDFS)和数据库技术(如HBase、Cassandra等),了解它们在大数据存储和管理方面的优势。 数据处理与分析:熟悉批处理框架(如Apache Spark)和流处理框架(如Apache Flink),了解它们在不同场景下的应用。 数据挖掘与机器学习:学习数据挖掘算法和机器学习技术,如分类、聚类、回归分析等,以发现数据中的模式和价值。
0 17浏览
会员免费 - 基于MapReduce实现物品协同过滤算法(ItemCF)mapreduce大小:147KB基于MapReduce实现物品协同过滤算法(ItemCF)基于MapReduce实现物品协同过滤算法(ItemCF)
0 26浏览
会员免费 - 大数据开发,大数据开发技术路线,核心知识大数据大小:351KB大数据开发是指利用一系列技术和工具对大规模数据集进行收集、存储、处理、分析和可视化,以提取有价值的信息,支持业务决策、产品优化、市场洞察、风险评估等应用场景。以下是大数据开发的关键组成部分和相关流程: ### **大数据开发工作内容与职责** 1. **数据采集与存储**: - 设计并实施数据采集策略,从各种源头(如传感器、日志文件、API、社交媒体、数据库等)获取数据。 - 选择和配置合适的数据存储系统,如关系型数据库、NoSQL数据库、数据湖(如Hadoop HDFS)、云存储服务等,以高效、安全地存储海量数据。 2. **数据清洗与预处理**: - 对采集到的数据进行质量检查,识别并处理缺失值、异常值、重复数据等质量问题。 - 进行数据转换,如标准化、归一化、编码等,以适应后续分析和建模的需求。 - 使用ETL(Extract, Transform, Load)工具或编写脚本进行数据清洗和整合,准备可供分析的数据集。 3. **数据建模与分析**: - 根据业务需求,选择合适的统计分析、数据挖掘或机器学习算法对数据进行深度分析。大数据开发是指利用一系列技术和工具对大规模数据集进行收集、存储、处理、分析和可视化,以提取有价值的信息,支持业务决策、产品优化、市场洞察、风险评估等应用场景。以下是大数据开发的关键组成部分和相关流程: ### **大数据开发工作内容与职责** 1. **数据采集与存储**: - 设计并实施数据采集策略,从各种源头(如传感器、日志文件、API、社交媒体、数据库等)获取数据。 - 选择和配置合适的数据存储系统,如关系型数据库、NoSQL数据库、数据湖(如Hadoop HDFS)、云存储服务等,以高效、安全地存储海量数据。 2. **数据清洗与预处理**: - 对采集到的数据进行质量检查,识别并处理缺失值、异常值、重复数据等质量问题。 - 进行数据转换,如标准化、归一化、编码等,以适应后续分析和建模的需求。 - 使用ETL(Extract, Transform, Load)工具或编写脚本进行数据清洗和整合,准备可供分析的数据集。 3. **数据建模与分析**: - 根据业务需求,选择合适的统计分析、数据挖掘或机器学习算法对数据进行深度分析。
0 23浏览
会员免费 - hadoop大数据技术原理与应用ppthadoop大小:11MBhadoop大数据技术原理与应用ppthadoop大数据技术原理与应用ppt
0 59浏览
会员免费 - ambari使用ansible自动化安装ambari大小:20MBansible自动化安装ambari-server, 自动化安装脚本ansible自动化安装ambari-server, 自动化安装脚本
0 112浏览
会员免费 - 新零售大数据平台-运维监控平台的开发大数据大小:204MB# XLS_BigData 新零售大数据平台开发的运维监控平台 更改大数据组件hue的源码,管理和监控更多平台,包括: 1、hadoop 2、hive 3、hbase 4、zookeeper 5、kettle 6、spark 7、组件权限 8、数据导出模块# XLS_BigData 新零售大数据平台开发的运维监控平台 更改大数据组件hue的源码,管理和监控更多平台,包括: 1、hadoop 2、hive 3、hbase 4、zookeeper 5、kettle 6、spark 7、组件权限 8、数据导出模块
0 9浏览
会员免费 - 大数据开发-在虚拟化集群中部署hadoop.ziphadoop大小:21MB大数据开发_在虚拟化集群中部署hadoop大数据开发_在虚拟化集群中部署hadoop
0 16浏览
会员免费 - 大数据开发-基于docker的hadoop开发测试环境构建.ziphadoop大小:2MB大数据开发_基于docker的hadoop开发测试环境构建大数据开发_基于docker的hadoop开发测试环境构建
0 21浏览
会员免费 - 大数据开发-大数据自动化部署-包括hadoop+hive+hbase+spark+storm等组件.ziphadoop大小:24KB大数据开发_大数据自动化部署_包括hadoop+hive+hbase+spark+storm等组件大数据开发_大数据自动化部署_包括hadoop+hive+hbase+spark+storm等组件
0 47浏览
会员免费 - 大数据知识仓库涉及到数据仓库建模、实时计算、大数据、数据中台、系统设计、Java、算法等代码hadoop大小:134MB1、数据编排技术: Alluxio概览 Alluxio部署 Alluxio整合计算引擎 2、datalake数据湖技术: Hudi概览 Hudi整合Spark Hudi整合Flink Hudi调优实践 Hudi原理分析 hudi数据湖实践 3、iceberg技术: IceBerg概览 IceBerg整合Flink IceBerg整合Hive IceBerg整合Spark 4、存储相关,包含rocksdb、Hbase、BookKeeper、Zookeeper等 5、Hadoop生态圈的学习笔记,主要记录HDFS、MapReduce、Yarn相关读书笔记及源码分析等 5.1 HDFS Hadoop快速入门 HDFSOverView Hadoop广义生态系统 Hadoop高可用配置 HadoopCommon分析 HDFS集群相关管理 HDFS Shell 5.2 MapReduce 分布式处理框架MapReduce MapReduce概览 MapReduce调优 MapReduce数据相关操作 MapReduce输入输出剖析 MapReduce的工作机制 5.3 Yarn 等等太多了!!!1、数据编排技术: Alluxio概览 Alluxio部署 Alluxio整合计算引擎 2、datalake数据湖技术: Hudi概览 Hudi整合Spark Hudi整合Flink Hudi调优实践 Hudi原理分析 hudi数据湖实践 3、iceberg技术: IceBerg概览 IceBerg整合Flink IceBerg整合Hive IceBerg整合Spark 4、存储相关,包含rocksdb、Hbase、BookKeeper、Zookeeper等 5、Hadoop生态圈的学习笔记,主要记录HDFS、MapReduce、Yarn相关读书笔记及源码分析等 5.1 HDFS Hadoop快速入门 HDFSOverView Hadoop广义生态系统 Hadoop高可用配置 HadoopCommon分析 HDFS集群相关管理 HDFS Shell 5.2 MapReduce 分布式处理框架MapReduce MapReduce概览 MapReduce调优 MapReduce数据相关操作 MapReduce输入输出剖析 MapReduce的工作机制 5.3 Yarn 等等太多了!!!
0 46浏览
免费 - Hadoop 视频分析系统hadoop大小:5MBHadoop MapReduce WordCount 操作数据库Hadoop MapReduce WordCount 操作数据库
0 133浏览
会员免费 - Windows部署Hadoop所需文件(64位)hadoop大小:80KB其实winutils.exe不是必须的,只要把hadoop.dll放在java.exe所在目录即可其实winutils.exe不是必须的,只要把hadoop.dll放在java.exe所在目录即可
0 12浏览
会员免费 - 前端基于vue,后端基于springboot和hdfs的云盘项目.zip人工智能大小:8MB人工智能-hdfs人工智能-hdfs
0 30浏览
免费 - 一个基于springboot和hdfs的大文件管理系统.zip人工智能大小:8KB人工智能-hdfs人工智能-hdfs
0 16浏览
免费 - 使用springboot基于hdfs和HBase实现的一个海量的对象存储服务.zip人工智能大小:9KB人工智能-hdfs人工智能-hdfs
0 14浏览
免费 - 基于spring-boot和hdfs的网盘.zip人工智能大小:429KB人工智能-hdfs人工智能-hdfs
0 11浏览
免费 - 基于scala语言的spark操作,包含连接操作mysql,连接hdfs.zip人工智能大小:8MB人工智能-hdfs人工智能-hdfs
0 15浏览
免费 - 基于springboot+SpringCloud+HDFS+虹软人脸识别SDK的海量人脸搜索.zip人工智能大小:180B人工智能-hdfs人工智能-hdfs
0 14浏览
免费 - 基于redis的小文件合并应用,合并为Sequence File保存到HDFS.zip人工智能大小:24KB人工智能-hdfs人工智能-hdfs
0 10浏览
免费 - 基于Python爬虫和HDFS的招聘信息采集与存储系统.zip人工智能大小:119MB人工智能-hdfs人工智能-hdfs
0 19浏览
免费 - 基于Netty、ZooKeeper、Hdfs的高可用性的数据同步和保活.zip人工智能大小:46KB人工智能-hdfs人工智能-hdfs
0 33浏览
免费 - 基于MariaDB的分布式列式数据库,并行MPP扩展,支持GFS HDFS存储及外部存储,mysql数据库自动多主备份人工智能大小:247MB人工智能-hdfs人工智能-hdfs
0 11浏览
免费 - 基于Lucene和HDFS的PB级数据索引、搜索、存储系统.zip人工智能大小:40KB人工智能-hdfs人工智能-hdfs
0 10浏览
免费 - 基于jstorm框架实现文件从FTP传输至HDFS.zip人工智能大小:46KB人工智能-hdfs人工智能-hdfs
0 6浏览
免费 - 基于HDFS实现的最佳IO存储编码.zip人工智能大小:17MB人工智能-hdfs人工智能-hdfs
0 11浏览
免费 - 基于HDFS和springsecurity的网盘项目的网盘.zip人工智能大小:438KB人工智能-hdfs人工智能-hdfs
0 10浏览
免费 - 基于HDFS与HBase的对象存储服务.zip人工智能大小:33KB人工智能-hdfs人工智能-hdfs
0 8浏览
免费 - 基于HDFS的,分布式的key-value store.zip人工智能大小:90KB人工智能-hdfs人工智能-hdfs
0 6浏览
免费 - 基于HDFS存储的FTP服务器.zip人工智能大小:50KB人工智能-hdfs人工智能-hdfs
0 12浏览
免费 - 基于HDFS和MapReduce的闲聊型对话系统.zip人工智能大小:172B人工智能-hdfs人工智能-hdfs
0 10浏览
免费 - 基于HDFS的二级索引kvStore.zip人工智能大小:154KB人工智能-hdfs人工智能-hdfs
0 10浏览
免费 - 基于HDFS+FTP的文件存储与迁移实验代码.zip人工智能大小:3MB人工智能-hdfs人工智能-hdfs
0 8浏览
免费 - 基于hadoop结合spring全家桶,采用hdfs文件系统存储的以jpa完成持久层的项目.zip人工智能大小:30KB人工智能-hdfs人工智能-hdfs
0 8浏览
免费 - 基于Hadoop生态框架,使用hdfs存储系统资料,系统针对司机、用户、管理员设计了不同的系统操作功能和交互页面.zip人工智能大小:934KB人工智能-hdfs人工智能-hdfs
0 7浏览
免费 - 基于Hadoop的大数据编程,主要涉及HDFS,MapRedue,HBase。非生产环境.zip人工智能大小:154KB人工智能-hdfs人工智能-hdfs
0 7浏览
免费 - 基于Hadoop0.21版本的HDFS功能修改.zip人工智能大小:141KB人工智能-hdfs人工智能-hdfs
0 4浏览
免费 - 分布式图片服务器,基于HDFS、HBASERedis、nginx etc.zip人工智能大小:5MB人工智能-hdfs人工智能-hdfs
0 11浏览
免费 - 基于 aspectjweaver AOP 实现的 Annotatio和一些 HDFS和Spark helper人工智能大小:2MB人工智能-hdfs人工智能-hdfs
0 7浏览
免费 - 分布式环境下栅格数据存储策略源码(基于Hadoop、HDFS和HBase).zip人工智能大小:211MB人工智能-hdfs人工智能-hdfs
0 6浏览
免费 - 基于 DataX 开发的快速同步 MySQL 数据至 HDFS 上的工具.zip人工智能大小:20KB人工智能-hdfs人工智能-hdfs
0 17浏览
免费 - 大学生创新创业项目《基于HDFS与MapReduce技术的分布式点单系统》.zip人工智能大小:896KB人工智能-hdfs人工智能-hdfs
0 13浏览
免费 - hdfs client for ruby (just jruby) hdfs客户端 基于jruby.zip人工智能大小:28MB人工智能-hdfs人工智能-hdfs
0 11浏览
免费 - 并发消费kafka数据并写入hdfs。 基于flink统计实时ip热点统计.zip人工智能大小:74KB人工智能-hdfs人工智能-hdfs
0 18浏览
免费 - Hadoop在idea中的java代码hadoop大小:76MBHadoop在idea中的java代码Hadoop在idea中的java代码
0 59浏览
会员免费 - Azkaban源码,可以用来进行编译软件/插件大小:236MBAzkaban是一个用Java编写的开源工作流管理系统,旨在简化大数据处理过程中的任务调度和工作流程管理。它提供了一个直观的用户界面,允许用户轻松地定义、调度和监视工作流程。Azkaban的源代码包含了系统的各个组件,包括前端界面、后端服务以及与数据库交互的模块等。用户可以通过编译源代码来构建自定义的Azkaban部署,以满足其特定需求。 编译Azkaban源代码需要一些基本的开发工具,如Java Development Kit (JDK)、Apache Maven等。一旦配置好开发环境,用户可以使用Maven构建工具编译源代码。编译过程将会生成可执行的Jar文件和其他必要的依赖项,这些文件可以用于部署和运行Azkaban系统。 通过编译Azkaban源代码,用户可以实现对系统的定制和扩展,以满足特定的业务需求或性能优化要求。同时,编译源代码还有助于用户深入理解系统的工作原理和内部机制,从而更好地进行系统调优和故障排除。Azkaban是一个用Java编写的开源工作流管理系统,旨在简化大数据处理过程中的任务调度和工作流程管理。它提供了一个直观的用户界面,允许用户轻松地定义、调度和监视工作流程。Azkaban的源代码包含了系统的各个组件,包括前端界面、后端服务以及与数据库交互的模块等。用户可以通过编译源代码来构建自定义的Azkaban部署,以满足其特定需求。 编译Azkaban源代码需要一些基本的开发工具,如Java Development Kit (JDK)、Apache Maven等。一旦配置好开发环境,用户可以使用Maven构建工具编译源代码。编译过程将会生成可执行的Jar文件和其他必要的依赖项,这些文件可以用于部署和运行Azkaban系统。 通过编译Azkaban源代码,用户可以实现对系统的定制和扩展,以满足特定的业务需求或性能优化要求。同时,编译源代码还有助于用户深入理解系统的工作原理和内部机制,从而更好地进行系统调优和故障排除。
0 13浏览
会员免费 - hadoop2.2.0更新native库hadoop大小:1020KB解决问题: lib/native/libhadoop.so which might have disabled stack guard lib/native/libhadoop.so: file too short解决问题: lib/native/libhadoop.so which might have disabled stack guard lib/native/libhadoop.so: file too short
0 9浏览
会员免费 - 大数据大数据前台页面 Ajax框架/RIAajax大小:2MB【大数据】大数据前台页面 Ajax框架/RIA 大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。 【大数据】大数据前台页面 Ajax框架/RIA 【大数据】大数据前台页面 Ajax框架/RIA【大数据】大数据前台页面 Ajax框架/RIA 大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。 【大数据】大数据前台页面 Ajax框架/RIA 【大数据】大数据前台页面 Ajax框架/RIA
0 17浏览
免费 - Apache Hudi代表 Hadoop 实现大数据的对象存储的Upserts、Deletes 和 Incrementalsapache大小:15MB1. 通过快速、可插拔的索引支持更新插入 2. 以原子方式发布支持回滚的数据 3. 编写器和查询之间的快照隔离 4. 用于数据恢复的保存点 5. 使用统计信息管理文件大小和布局 6. 行和列数据的异步压缩 7. 用于跟踪世系的时间线元数据 8. 通过群集优化数据湖布局 Hudi supports three types of queries: 1. 快照查询 - 使用列式存储和基于行的存储(例如 Parquet + Avro)的组合,提供对实时数据的快照查询 。 增量查询 - 提供在某个时Hudi 支持三种类型的查询: 2. 间点之后插入或更新记录的更改流。 3. 读取优化查询 - 通过纯列式存储(例如 Parquet)提供出色的快照查询性能。1. 通过快速、可插拔的索引支持更新插入 2. 以原子方式发布支持回滚的数据 3. 编写器和查询之间的快照隔离 4. 用于数据恢复的保存点 5. 使用统计信息管理文件大小和布局 6. 行和列数据的异步压缩 7. 用于跟踪世系的时间线元数据 8. 通过群集优化数据湖布局 Hudi supports three types of queries: 1. 快照查询 - 使用列式存储和基于行的存储(例如 Parquet + Avro)的组合,提供对实时数据的快照查询 。 增量查询 - 提供在某个时Hudi 支持三种类型的查询: 2. 间点之后插入或更新记录的更改流。 3. 读取优化查询 - 通过纯列式存储(例如 Parquet)提供出色的快照查询性能。
0 19浏览
会员免费 - 基于Sqoop+Hive+Spark+MySQL+AirFlow+Grafana的工业大数据离线数仓项目sqoop大小:25KB基于Sqoop+Hive+Spark+MySQL+AirFlow+Grafana的工业大数据离线数仓项目基于Sqoop+Hive+Spark+MySQL+AirFlow+Grafana的工业大数据离线数仓项目
0 86浏览
会员免费 - 大数据教程-HDFS常用Shell命令.md.ziphadoop大小:2KBHDFS 常用 shell 命令 1. 显示当前目录结构HDFS 常用 shell 命令 1. 显示当前目录结构
0 44浏览
会员免费 - 基于Apache Kylin对Airline数据进行航班准点率、平均延误时间、航班数等方面的分析计算apache大小:244KB基于Apache Kylin对Airline数据进行航班准点率、平均延误时间、航班数等方面的分析计算。基于Apache Kylin对Airline数据进行航班准点率、平均延误时间、航班数等方面的分析计算。
0 12浏览
会员免费