# 项目说明
基于PySpark的统计分析,主要分为以下模块:
```angular2html
1.spark_core:spark的基本操作,统计、wordcount、TopN等,数据主要来自英文新闻网站和自己随机构造的数据
2.spark_mllib:针对spark mllib里面机器学习算法的使用做了demo及说明,数据集来自spark2.3.2安装包里面mllib自带的数据集
3.spark_sql:
(1)spark_sql对本地数据库的数据统计;数据主要为教育数据,对试题、试卷、知识点做统计分析
(2)对空气质量指数PM2.5的分析,使用ElasticSearch存取数据
4.spark_streaming: 监听本地9999端口,streaming统计分析;streaming与Kafka结合起来处理分析;
5.其它模块持续更新中...
```
# 项目使用
```
cd Spark-for-Python 进入到项目
pip install -r requirements.txt 安装所需的pip包
cp settings.py.example settings.py 修改配置文件
将mysql-connector放到spark的jars目录
cd spark_sql
cp mysql-connector-java-8.0.11.jar /home/ubuntu/spark-2.3.2-bin-hadoop2.7/jars
Spark SQL连接ElasticSearch
cp elasticsearch-spark-20_2.11-6.4.1.jar /home/ubuntu/spark-2.3.2-bin-hadoop2.7/jars
如果提示:ClassNotFoundException Failed to find data source: org.elasticsearch.spark.sql.,则表示spark没有发现jar包,此时需重新编译pyspark:
(1) cd /opt/spark-2.3.2-bin-hadoop2.7/python
(2) python3 setup.py sdist
(3) pip install dist/*.tar.gz
如果提示:Multiple ES-Hadoop versions detected in the classpath; please use only one ,则表示ES-Hadoop有多余的(既有elasticsearch-hadoop,又有elasticsearch-spark):
此时删除多余的jar包,重新编译pyspark 即可
创建虚拟环境:virtualenv -p python3 env_py3_spark
安装pyspark包:
1.cd /home/ubuntu/spark-2.3.2-bin-hadoop2.7/python
2.python3 setup.py sdist
3.pip3 install dist/*.tar.gz
```
# 版本控制
```angular2html
1.Spark版本为2.3.2
2.Python版本为3.5.2
3.mysql-connector-java-8.0.11.jar
4.ElasticSearch 6.4.1 Kinaba 6.4.1
5.elasticsearch-spark-20_2.11-6.4.1.jar
```
没有合适的资源?快使用搜索试试~ 我知道了~
基于python3使用spark的统计分析,涵盖spark的几大模块+源代码+文档说明
共55个文件
txt:23个
py:15个
jpg:6个
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 7 浏览量
2023-12-01
22:09:50
上传
评论
收藏 2.95MB ZIP 举报
温馨提示
基于PySpark的统计分析,主要分为以下模块: ```angular2html 1.spark_core:spark的基本操作,统计、wordcount、TopN等,数据主要来自英文新闻网站和自己随机构造的数据 2.spark_mllib:针对spark mllib里面机器学习算法的使用做了demo及说明,数据集来自spark2.3.2安装包里面mllib自带的数据集 3.spark_sql: (1)spark_sql对本地数据库的数据统计;数据主要为教育数据,对试题、试卷、知识点做统计分析 (2)对空气质量指数PM2.5的分析,使用ElasticSearch存取数据 4.spark_streaming: 监听本地9999端口,streaming统计分析;streaming与Kafka结合起来处理分析; 5.其它模块持续更新中... -------- 该资源内项目源码是个人的毕设,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! <项目介绍> 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。 --------
资源推荐
资源详情
资源评论
收起资源包目录
基于python3使用spark的统计分析,涵盖spark的几大模块,主要有spark core、spark mllib、spark sql及spark streaming等的python实现.zip (55个子文件)
code
__init__.py 0B
spark_mllib
__init__.py 0B
mllib
sample_isotonic_regression_libsvm_data.txt 2KB
streaming_kmeans_data_test.txt 46B
gmm_data.txt 62KB
sample_linear_regression_data.txt 116KB
sample_svm_data.txt 39KB
als
sample_movielens_ratings.txt 32KB
test.data 128B
sample_movielens_data.txt 14KB
sample_libsvm_data.txt 102KB
ridge-data
lpsa.data 10KB
pic_data.txt 164B
pagerank_data.txt 24B
sample_kmeans_data.txt 120B
kmeans_data.txt 72B
sample_fpgrowth.txt 68B
images
kittens
DP802813.jpg 30KB
29.5.a_b_EGDP022204.jpg 27KB
not-image.txt 13B
DP153539.jpg 26KB
54893.jpg 35KB
license.txt 830B
multi-channel
BGRA_alpha_60.png 747B
grayscale.jpg 36KB
chr30.4.184.jpg 58KB
BGRA.png 683B
sample_multiclass_classification_data.txt 7KB
sample_lda_libsvm_data.txt 578B
iris_libsvm.txt 4KB
sample_lda_data.txt 264B
sample_binary_classification_data.txt 102KB
k_means.py 2KB
random_forest.py 2KB
settings.py.example 263B
.pre-commit-config.yaml 260B
spark_sql
__init__.py 0B
data
Beijing2017_PM25.csv 287KB
spark_weather.py 2KB
elasticsearch-spark-20_2.11-6.4.1.jar 844KB
spark_sql_base.py 2KB
mysql-connector-java-8.0.11.jar 1.94MB
spark_question.py 1KB
spark_paper.py 1KB
spark_core
__init__.py 0B
spark_cache.py 995B
spark_age_count_operator.py 2KB
spark_word_count.py 1KB
name_age.txt 3KB
cnsa_news.txt 634B
requirements.txt 200B
.gitignore 1KB
spark_streaming
__init__.py 0B
network_wordcount.py 742B
README.md 2KB
共 55 条
- 1
资源评论
奋斗奋斗再奋斗的ajie
- 粉丝: 216
- 资源: 1985
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功