spark连接HIveDemo_spark连接hive的kerberos认证通过--conf参数资源-CSDN文库

共376个文件

xml：305个

class：29个

txt：23个

spark

hive

1星需积分: 42 55 浏览量 2019-04-13 21:01:42 上传评论 2 收藏 569KB ZIP 举报

在大数据处理领域，Spark和Hive是两个非常重要的组件。Spark以其高效的计算性能和丰富的生态系统在实时处理和分析任务中占据重要地位，而Hive则作为数据仓库工具，提供了SQL接口进行大规模数据处理。本教程将详细介绍如何使用Spark连接到Hive数据库，实现数据的读取、操作和写入。我们需要理解Spark与Hive的集成原理。Spark可以通过HiveContext（在Spark 2.x中被DataFrameReader和DataFrameWriter取代）来访问Hive元数据和数据存储。这允许Spark应用程序使用Hive的表和函数，同时利用Spark的高性能计算能力。步骤一：环境配置确保你已经安装了Apache Spark和Hive，并且它们的版本兼容。在配置Spark时，需要在`spark-defaults.conf`文件中指定Hive的相关路径，如Hive Metastore URI、Hive配置目录等。例如： ``` spark.sql.warehouse.dir=hdfs://namenode:port/warehouse spark.sql.hive.metastore.uris=thrift://hiveserver:9083 ``` 同时，确保Hive的JAR包已添加到Spark的类路径中，以便Spark可以访问Hive的API。步骤二：创建SparkSession 在Spark 2.x及以后的版本中，我们使用SparkSession来代替旧的SparkContext和HiveContext。以下是一个创建SparkSession的示例代码： ```python from pyspark.sql import SparkSession spark = SparkSession.builder \ .appName("Spark-Hive Demo") \ .config("spark.sql.warehouse.dir", "hdfs://namenode:port/warehouse") \ .enableHiveSupport() \ .getOrCreate() ``` 这段代码创建了一个SparkSession实例，启用了Hive支持，并指定了Hive仓库的目录。步骤三：读取Hive表现在，你可以使用SparkSession来读取Hive中的表。例如，如果我们有一个名为`test_table`的Hive表，可以这样读取： ```python df = spark.read.table("test_table") ``` 步骤四：数据操作 Spark提供了丰富的DataFrame API，可以对数据进行各种操作，如过滤、聚合、排序等。例如，筛选出某列满足条件的行： ```python filtered_df = df.filter(df.column_name > value) ``` 步骤五：写回Hive 完成数据处理后，可以将结果写回到Hive表中。这里需要注意，如果目标表不存在，Spark会创建一个新表；如果已存在，可以设置模式（如`overwrite`或`append`）决定是否覆盖原有数据。 ```python filtered_df.write.mode("overwrite").saveAsTable("output_table") ``` 这就是一个基本的Spark连接Hive并进行数据操作的示例。实际应用中，你可能还需要考虑更复杂的情况，比如分区表、自定义序列化和反序列化（SerDe）、Hive UDF（用户自定义函数）等。在处理大数据时，理解并熟练掌握Spark与Hive的集成至关重要，它能够帮助你高效地处理和分析海量数据。在提供的TestDemo文件中，可能包含的是一个完整的Spark连接Hive的示例代码，你可以通过查看和运行这个代码来进一步学习和实践。记得根据你的实际环境配置调整相关参数，以确保程序正常运行。

资源推荐

资源详情

资源评论

收起资源包目录

spark连接HIveDemo （376个子文件）

KMeansExample$.class 11KB

MyKMeans$.class 7KB

KMeansExample$$anonfun$main$1.class 3KB

KMeansExample$$typecreator1$1.class 3KB

KMeansExample$$typecreator5$1.class 3KB

KMeansExample$$typecreator3$1.class 3KB

KMeansExample$$typecreator4$1.class 3KB

KMeansExample$$typecreator6$1.class 3KB

KMeansExample$$typecreator2$1.class 3KB

KMeansExample$$anonfun$7.class 2KB

KMeansExample$$anonfun$2.class 1KB

TestWork$.class 1KB

MyKMeans$$anonfun$2.class 1KB

KMeansExample$$anonfun$8.class 1KB

KMeansExample$$anonfun$9.class 1KB

MyKMeans$$anonfun$3.class 1KB

MyKMeans$$anonfun$4.class 1KB

TestDemo$.class 1KB

KMeansExample$$anonfun$3.class 1KB

KMeansExample$$anonfun$5.class 1KB

KMeansExample$$anonfun$4.class 1KB

KMeansExample.class 1KB

KMeansExample$$anonfun$6.class 1KB

KMeansExample$$anonfun$1.class 1KB

MyKMeans$$anonfun$1.class 1002B

MyKMeans.class 813B

TestDemo.class 581B

TestWork.class 581B

TestJava.class 249B

lpsa.data 10KB

test.data 128B

.DS_Store 6KB

TestDemo.iml 35KB

TestJava.java 29B

chr30.4.184.jpg 58KB

grayscale.jpg 36KB

54893.jpg 35KB

DP802813.jpg 30KB

29.5.a_b_EGDP022204.jpg 27KB

DP153539.jpg 26KB

MANIFEST.MF 51B

BGRA_alpha_60.png 747B

BGRA.png 683B

KMeansExample.scala 7KB

Test.scala 3KB

MyKMeans.scala 2KB

TestWork.scala 616B

TestDemo.scala 268B

sample_linear_regression_data.txt 116KB

sample_binary_classification_data.txt 102KB

sample_libsvm_data.txt 102KB

gmm_data.txt 62KB

sample_svm_data.txt 39KB

sample_movielens_ratings.txt 32KB

AFINN-111.txt 27KB

sample_movielens_data.txt 14KB

sample_multiclass_classification_data.txt 7KB

iris_libsvm.txt 4KB

sample_isotonic_regression_libsvm_data.txt 2KB

license.txt 830B

sample_lda_libsvm_data.txt 578B

sample_lda_data.txt 264B

users.txt 169B

pic_data.txt 164B

sample_kmeans_data.txt 119B

kmeans_data.txt 72B

sample_fpgrowth.txt 68B

streaming_kmeans_data_test.txt 46B

followers.txt 32B

pagerank_data.txt 24B

not-image.txt 13B

workspace.xml 19KB

pom.xml 10KB

hive-site.xml 2KB

hdfs-site.xml 2KB

Maven__org_glassfish_jersey_containers_jersey_container_servlet_core_2_22_2.xml 843B

Maven__org_apache_phoenix_phoenix_queryserver_client_4_8_1_HBase_1_0.xml 833B

Maven__org_apache_tephra_tephra_hbase_compat_1_0_0_9_0_incubating.xml 815B

Maven__org_glassfish_jersey_containers_jersey_container_servlet_2_22_2.xml 808B

Maven__org_apache_hadoop_hadoop_mapreduce_client_jobclient_2_7_3.xml 808B

Maven__org_apache_directory_server_apacheds_kerberos_codec_2_0_0_M15.xml 806B

Maven__com_fasterxml_jackson_dataformat_jackson_dataformat_smile_2_8_1.xml 805B

Maven__org_scala_lang_modules_scala_parser_combinators_2_11_1_0_4.xml 800B

core-site.xml 798B

Maven__org_apache_phoenix_phoenix_server_client_4_7_0_HBase_1_0.xml 798B

Maven__com_fasterxml_jackson_dataformat_jackson_dataformat_cbor_2_8_1.xml 798B

Maven__com_fasterxml_jackson_dataformat_jackson_dataformat_yaml_2_8_1.xml 798B

Maven__com_fasterxml_jackson_module_jackson_module_scala_2_11_2_6_5.xml 796B

Maven__org_springframework_spring_context_support_4_1_7_RELEASE.xml 795B

Maven__org_glassfish_hk2_external_aopalliance_repackaged_2_4_0_b34.xml 795B

Maven__org_apache_hadoop_hadoop_mapreduce_client_shuffle_2_7_3.xml 794B

Maven__org_apache_spark_spark_streaming_kafka_0_10_2_11_2_2_0.xml 790B

Maven__org_apache_twill_twill_discovery_core_0_6_0_incubating.xml 790B

Maven__com_fasterxml_jackson_module_jackson_module_paranamer_2_6_5.xml 789B

Maven__org_apache_hadoop_hadoop_mapreduce_client_common_2_7_3.xml 787B

Maven__org_apache_twill_twill_discovery_api_0_6_0_incubating.xml 783B

Maven__org_springframework_data_spring_data_redis_1_6_1_RELEASE.xml 780B

共 376 条

评论收藏

内容反馈

输出乃最高级学习方式

2019-08-31

毛用没有 scala的

xiaolin93
上传者
2020-11-10

那说明你不会用scala

xiaolin93

粉丝: 3
资源: 32

spark连接HIveDemo

Spark和Hive的结合（让hive基于spark计算）

idea中通过spark访问hive

spark-hive-udf:Spark Hive UDF示例

HiveConnect.java

简单的spark 读写hive以及mysql

spark操作hive表源码

Spark最全操作完整示例代码

SparkSQL编程指南中文版

在python中使用pyspark读写Hive数据操作

spark-hive-2.11和spark-sql-以及spark-hadoop包另付下载地址

编译的spark-hive_2.11-2.3.0和 spark-hive-thriftserver_2.11-2.3.0.jar

spark-hive-thriftserver_2.11-2.1.3-SNAPSHOT-123456.jar

Hadoop+Spark+Hive+HBase+Oozie+Kafka+Flume+Flink+ES+Redash等详细安装部署

项目实战——Spark将Hive表的数据写入ElasticSearch（Java版本）

Hadoop+Hbase+Spark+Hive搭建

spark2.0编译版-适用于hive2.3的hive on spark

eclipse集成hadoop+spark+hive开发源码实例

hive-jdbc-1.2.1.spark2.jar

spark替代Hive实现ETL作业

sparkSQL连接cassandra和mysql的demo

spark-hive-thriftserver_2.11-2.4.5.jar

建立Hive和Hbase的映射关系，通过Spark将Hive表中数据导入ClickHouse

spark-hive_2.11-2.4.5.jar

spark-hive_2.11-2.1.4-SNAPSHOT.rar

sparksql连接mysql，hive

DataGrip连接Hive所需jar包

centOS 6.10 hadoop+spark+hive+HBase集群搭建

最新资源