# 毕业设计之数据分析
基于 Apache Spark (with Apache Hadoop) 的数据分析项目
## 部署环境
操作系统:Ubuntu 14.04
Java 版本:Java 8
Python 版本:Python 2.7
Spark 版本:1.4.1 +
Hadoop 版本:1.6.0 +
## 安装依赖
安装 Python 包管理器 *pip*:
weget https://bootstrap.pypa.io/get-pip.py && python get-pip.py
安装 *NumPy*
pip install numpy
## TFIDF 词频逆文档频率算法
### 安装依赖
安装 *PyYAML*
pip install pyyaml
克隆 *jieba* 的最新代码:
git clone https://github.com/fxsjy/jieba.git
压缩 *jieba*
cd jieba && zip -r jieba.zip jieba
### 运行
spark-submit tfidf.py --py-files jieba.zip
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
Python是一种高级、通用、解释型的编程语言,由Guido van Rossum于1989年发起,1991年正式发布。Python以简洁而清晰的语法著称,强调代码的可读性和易于维护。以下是Python的一些主要特点和优势: 易学易用: Python的语法设计简单直观,更接近自然语言,使初学者更容易上手。这种易学易用的特性促使了Python在教育领域和初学者中的广泛应用。 高级语言: Python是一种高级编程语言,提供了自动内存管理(垃圾回收)等功能,减轻了程序员的负担,同时具有动态类型和面向对象的特性。 跨平台性: Python具有很好的跨平台性,可以在多个操作系统上运行,包括Windows、Linux、macOS等,使得开发的代码可以轻松迁移。 丰富的标准库: Python内置了大量的模块和库,涵盖了文件操作、网络编程、数据库访问等各个方面。这些标准库使得开发者能够快速构建功能丰富的应用程序。 开源: Python是开源的,任何人都可以免费使用并查看源代码。这种开放性促进了Python社区的发展,使得有大量的第三方库和框架可供使用。 强大的社区支持: Python拥有庞大而活跃的开发社区,这使得开发者可以轻松获取帮助、分享经验,并参与到Python的发展中。 适用于多个领域: Python在各种领域都有广泛的应用,包括Web开发、数据科学、人工智能、自动化测试、网络编程等。特别是在数据科学和人工智能领域,Python成为了主流的编程语言之一。 支持面向对象编程: Python支持面向对象编程,允许开发者使用类和对象的概念,提高了代码的重用性和可维护性。
资源推荐
资源详情
资源评论
收起资源包目录
毕业设计之数据分析.zip (7个子文件)
SJT-code
.editorconfig 371B
lda.py 2KB
LICENSE 1KB
tfidf.py 2KB
requirements.txt 39B
.gitignore 36B
README.md 684B
共 7 条
- 1
资源评论
JJJ69
- 粉丝: 6223
- 资源: 5780
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Pytorch框架基于Bert构建词向量+Bi-LSTM+Attention实现情感分类任务python源码+数据集.zip
- ####这是一篇对软件测试实验报告详细介绍(含代码)
- 这是一篇关于白盒测试的详细描述文章.docx
- ###这是一篇描述vector的教程文章
- 基于RISC-V的一个简单的五级流水线CPU设计源码+项目说明.zip
- 抽取地下水对加州约塞米蒂国家公园山地湿地复合体可持续性的影响
- C++vector介绍及详细使用示例(源代码)
- java基于GUI的简单记事本
- 指纹识别-基于OpenCV实现的指纹识别算法-附项目源码.zip
- 206693250008_R01C02_Grn.idat
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功