SparkpythonAPI函数调用学习资源-CSDN文库

共5个文件

pdf：4个

txt：1个

需积分: 10 61 浏览量 2018-08-11 17:00:36 上传评论 2 收藏 2.21MB RAR 举报

Spark Python API，通常被称为PySpark，是Apache Spark与Python编程语言的接口，使得开发者能够利用Python的简洁性和Spark的强大计算能力处理大规模数据。PySpark在大数据处理领域具有广泛的应用，尤其适合于数据科学和机器学习项目。下面我们将深入探讨PySpark API中的关键概念和常用函数。 1. **SparkContext（SC）**：这是PySpark程序的核心，它连接到Spark集群并初始化所有其他组件。`SparkConf()`用于配置Spark，`SparkContext(conf=conf)`则用于创建SparkContext实例。 2. **RDD（弹性分布式数据集）**：RDD是Spark中最基本的数据抽象，它是不可变的、分区的记录集合。通过`sc.parallelize()`或`sc.textFile()`方法可以从现有数据源创建RDD。 3. **DataFrame和Dataset**：DataFrame是基于RDD的优化存储结构，支持SQL查询和关系数据库操作。它可以通过`sqlContext.read.format()`读取多种格式的数据，如CSV、JSON、Parquet等。Dataset是DataFrame的类型安全版本，提供了更丰富的编译时检查。 4. **转换（Transformations）**：RDD、DataFrame和Dataset可以进行一系列转换，如`map()`, `filter()`, `flatMap()`, `groupByKey()`, `reduceByKey()`, `join()`, `distinct()`等。这些转换定义了数据处理逻辑，但不会立即执行，只有在触发行动操作时才会计算。 5. **行动（Actions）**：行动如`count()`, `collect()`, `save()`, `take()`等会触发计算并返回结果。`count()`返回RDD元素数量，`collect()`将结果返回到驱动程序，`save()`将数据写入持久化存储。 6. **DataFrame和Dataset的操作**：DataFrame提供了丰富的SQL查询功能，如`select()`, `where()`, `groupBy()`, `agg()`, `join()`等。Dataset则提供了对Java泛型的支持，允许更强类型的安全性。 7. **广播变量（Broadcast Variables）**：广播变量用于在每个Executor之间高效地分发大对象。使用`sc.broadcast()`创建，然后在任务中使用`value`属性访问。 8. **累加器（Accumulators）**：累加器是只写的共享变量，可以在任务中增加值，但不能读取。适用于收集统计信息，如`sc.accumulator()`。 9. **PySpark SQL**：PySpark提供了一个名为`pyspark.sql`的模块，支持DataFrame的SQL查询。可以创建DataFrame注册为临时视图，然后使用`sql()`函数执行SQL查询。 10. **Spark SQL和HBase集成**：通过`HBaseContext`，PySpark可以与HBase数据库交互，进行数据读写。`hbase_table = sqlContext.read.format('org.apache.spark.sql.hbase')...`用于读取HBase表，`df.write.format('org.apache.spark.sql.hbase')...`用于写入。 11. **PySpark调试和性能优化**：PySpark程序可以通过设置`spark.sql.shuffle.partitions`等配置参数来调整性能。此外，使用`%pylab inline`和`display`函数可以在Jupyter notebook中实时查看数据和图表，便于调试。 12. **Spark Job和Stage**：一个Spark作业是由多个Stage组成的，Stage由DAG（有向无环图）决定，每个Stage包含一个或多个Task。理解Stage可以帮助优化任务执行。通过深入学习PySpark API并熟练运用这些概念和函数，开发者可以有效地处理大数据问题，构建高效的数据处理管道。在实际应用中，还需要关注资源管理、容错机制以及与其他大数据技术的集成，以实现更复杂的解决方案。

资源推荐

资源详情

资源评论

收起资源包目录

pysparkAPI.rar （5个子文件）

pysparkAPI(2).pdf 500KB

httpswww.iteblog.comarchivescategoryhbase.txt 41B

pysparkAPI(1).pdf 558KB

Spark Python API函数学习：pyspark API(4) – 过往记忆(1).pdf 774KB

pysparkAPI(3).pdf 508KB

2015/7/4 SparkPythonAPI函数学习：pysparkAPI(4)–过往记忆

http://www.iteblog.com/archives/1400 1/12

SparkPythonAPI函数学习：pysparkAPI(4)

 Python   w397090770  2015-07-0417:13:18  4℃  0评论 [编辑]

推酷网禁止转载本博客文章

博客地址：http://www.iteblog.com/

文章标题：《SparkPythonAPI函数学习：pysparkAPI(4)》

本文链接：http://www.iteblog.com/archives/1400

Hadoop、Hive、Hbase、Flume等QQ交流群：138615359（已满），请加入新群：149892483

本博客的微信公共帐号为：iteblog_hadoop，欢迎大家关注。如果你觉得本文对你有帮助，不妨分享一次，你的每次

支持，都是对我最大的鼓励

如果本文的内容对您的学习和工作有所帮助，不妨支付宝赞助(wyphao.2007@163.com)一下

2014Spark亚太峰会会议资料下载、《Hadoop从入门到上

手企业开发视频下载[70集]》、《炼数成金-Spark大数据平

台视频百度网盘免费下载》、《Spark1.X大数据平台V2百

度网盘下载[完整版]》、《深入浅出Hive视频教程百度网盘免

费下载》、累了吧，来这里看小说

　　《SparkPythonAPI函数学习：pysparkAPI(1)》

　　《SparkPythonAPI函数学习：pysparkAPI(2)》

　　《SparkPythonAPI函数学习：pysparkAPI(3)》

　　《SparkPythonAPI函数学习：pysparkAPI(4)》

　　Spark支持Scala、Java以及Python语言，本文将通过图片和简单例子来学习pysparkAPI。

2015/7/4 SparkPythonAPI函数学习：pysparkAPI(4)–过往记忆

http://www.iteblog.com/archives/1400 2/12

如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop

countByKey

join

leftOuterJoin

1 #countByKey

2 x=sc.parallelize([('B',1),('B',2),('A',3),('A',4),('A',5)])

3 y=x.countByKey()

4 print(x.collect())

5 print(y)

6 

7 [('B',1),('B',2),('A',3),('A',4),('A',5)]

8 defaultdict(<type'int'>,{'A':3,'B':2})

01 #join

02 x=sc.parallelize([('C',4),('B',3),('A',2),('A',1)])

03 y=sc.parallelize([('A',8),('B',7),('A',6),('D',5)])

04 z=x.join(y)

05 print(x.collect())

06 print(y.collect())

07 print(z.collect())

08 

09 [('C',4),('B',3),('A',2),('A',1)]

10 [('A',8),('B',7),('A',6),('D',5)]

11 [('A',(2,8)),('A',(2,6)),('A',(1,8)),('A',(1,6)),('B',(3,7))]

2015/7/4 SparkPythonAPI函数学习：pysparkAPI(4)–过往记忆

http://www.iteblog.com/archives/1400 3/12

rightOuterJoin

partitionBy

01 #leftOuterJoin

02 x=sc.parallelize([('C',4),('B',3),('A',2),('A',1)])

03 y=sc.parallelize([('A',8),('B',7),('A',6),('D',5)])

04 z=x.leftOuterJoin(y)

05 print(x.collect())

06 print(y.collect())

07 print(z.collect())

08 

09 [('C',4),('B',3),('A',2),('A',1)]

10 [('A',8),('B',7),('A',6),('D',5)]

11 [('A',(2,8)),('A',(2,6)),('A',(1,8)),('A',(1,6)),('C',(4,None)),('B',(3,7))]

01 #rightOuterJoin

02 x=sc.parallelize([('C',4),('B',3),('A',2),('A',1)])

03 y=sc.parallelize([('A',8),('B',7),('A',6),('D',5)])

04 z=x.rightOuterJoin(y)

05 print(x.collect())

06 print(y.collect())

07 print(z.collect())

08 

09 [('C',4),('B',3),('A',2),('A',1)]

10 [('A',8),('B',7),('A',6),('D',5)]

11 [('A',(2,8)),('A',(2,6)),('A',(1,8)),('A',(1,6)),('B',(3,7)),('D',(None,5))]

2015/7/4 SparkPythonAPI函数学习：pysparkAPI(4)–过往记忆

http://www.iteblog.com/archives/1400 4/12

combineByKey

aggregateByKey

1 #partitionBy

2 x=sc.parallelize([(0,1),(1,2),(2,3)],2)

3 y=x.partitionBy(numPartitions=3,partitionFunc=lambda

x:x)#onlykeyispassedtoparitionFunc

4 print(x.glom().collect())

5 print(y.glom().collect())

6 

7 [[(0,1)],[(1,2),(2,3)]]

8 [[(0,1)],[(1,2)],[(2,3)]]

01 #combineByKey

02 x=sc.parallelize([('B',1),('B',2),('A',3),('A',4),('A',5)])

03 createCombiner=(lambda

el:[(el,el**2)])

04 mergeVal=(lambdaaggregated,el:aggregated+[(el,el**2)])#appendtoaggregated

05 mergeComb=(lambdaagg1,agg2:agg1+agg2)#appendagg1withagg2

06 y=x.combineByKey(createCombiner,mergeVal,mergeComb)

07 print(x.collect())

08 print(y.collect())

09 

10 [('B',1),('B',2),('A',3),('A',4),('A',5)]

11 [('A',[(3,9),(4,16),(5,25)]),('B',[(1,1),(2,4)])]

评论收藏

内容反馈

飏”

粉丝: 699
资源: 6

Spark python API 函数调用学习

最新资源

Spark python API 函数调用学习

python调用api

Python api函数手册

Python语言使用Spark集群

pyphon语言及其应用

Python的Spark：Python的Spark基础（使用PySpark），代码示例

《大数据Spark数据处理及python数据结果可视化》学习笔记（另附大作业）

Spark:Apache Spark是一个快速的内存数据处理引擎，具有优雅且富有表现力的开发API，可让数据工作者高效执行需要快速迭代访问数据集的流，机器学习或SQL工作负载。该项目将在Scala中提供Spark的示例程序语

Koalas: Apache Spark上的Pandas API-python

BigDL: 一个用于Apache Spark的分布式深度学习库-python

讯飞python操控大模型lc-sp-sparkAPI-1709535448185.zip

(spark-ai-python)讯飞星火大模型接入库

Java中调用Python代码

大语言模型-讯飞星火大模型api、python调用接口

Python最佳学习路线图

TensorFlowOnSpark将TensorFlow程序引入ApacheSpark集群_Python_Scala.zip

Spark常用的算子以及Scala函数总结.pdf

大数据技术分享 Spark技术讲座 避免性能坑洼 - Spark上的数据科学Python扩展 共26页.pdf

各类速查表汇总-PySpark Cheat Sheet -Spark in Python

python程序设计辅助学习资料.zip

大数据Spark技术 扩展Apache Spark API而不使用Spark Source或Compiler 共29页.pdf

Python库 | spark_datax_schema_tools-0.0.31.tar.gz

spark音乐专辑数据分析项目.zip

PyPI 官网下载 | cgcloud_spark_tools-1.5.5-py2.7.egg

Apache Spark：大数据处理统一引擎.pdf

大数据spark相关包.rar

Python金融大数据分析azw3,python金融大数据分析 pdf,Python

Spark学习--RDD编码

PySpark_Day07：UDF and Action.pdf

写给Python程序员的Scala入门教程1

最新资源

大数据技术分享 Spark技术讲座避免性能坑洼 - Spark上的数据科学Python扩展共26页.pdf

大数据Spark技术扩展Apache Spark API而不使用Spark Source或Compiler 共29页.pdf