Spark机器学习:核心技术与实践
作者:Alex Tellez,Michal Malohlava
出版社:机械工业出版社
ISBN:9787111598466
VIP会员免费
(仅需0.8元/天)
¥ 30.0
温馨提示: 价值40000元的1000本电子书,VIP会员随意看哦!
电子书推荐
-
Spark机器学习 评分:
本书每章都设计了案例研究,以机器学习算法为主线,结合实例探讨了Spark 的实际应用。书中没有让人抓狂的数据公式,而是从准备和正确认识数据开始讲起,全面涵盖了推荐系统、回归、聚类、降维等经典的机器学习算法及其实际应用。
上传时间:2017-12 大小:9.56MB
- 8.36MB
基于Spark机器学习的电商推荐系统设计与实现.zip
2023-10-23毕业设计 课程设计 项目开发 系统开发 Spark 机器学习 大数据 算法 源码 毕业设计 课程设计 项目开发 系统开发 Spark 机器学习 大数据 算法 源码 毕业设计 课程设计 项目开发 系统开发 Spark 机器学习 大数据 算法 ...
- 4.77MB
Spark 机器学习.xmind.zip
2020-09-13MLlib是Spark的机器学习(ML)库。其目标是使实用的机器学习可扩展且容易,思维导图中详细地描述了Spark ML机器学习库相关的技术点及使用示例
- 18.17MB
基于Apache Spark 机器学习的生态安全格局构建方法.pdf
2021-09-24基于Apache Spark 机器学习的生态安全格局构建方法.pdf
- 35.8MB
Spark机器学习案例实战.pdf
2021-07-25大数据培训期间,课堂教材
- 24.4MB
Spark机器学习实战介绍
2023-04-25Spark机器学习实战介绍
- 3.16MB
spark机器学习介绍1
2022-08-08spark机器学习介绍1
- 19.13MB
高分毕业设计 基于Hadoop+Kafka+Spark大数据平台的新闻日志分析处理及可视化系统源码+部署文档+全部数据资料.
2024-04-23【资源说明】 高分毕业设计 基于Hadoop+Kafka+Spark大数据平台的新闻日志分析处理及可视化系统源码+部署文档+全部数据资料. 【备注】 1、该项目是高分毕业设计项目源码,已获导师指导认可通过,答辩评审分达到95分 2、该资源内项目代码都经过mac/window10/11/linux测试运行成功,功能ok的情况下才上传的,请放心下载使用! 3、本项目适合计算机相关专业(如软件工程、计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载使用,也可作为毕业设计、课程设计、作业、项目初期立项演示等,当然也适合小白学习进阶。 4、如果基础还行,可以在此代码基础上进行修改,以实现其他功能,也可直接用于毕设、课设、作业等。 欢迎下载,沟通交流,互相学习,共同进步!
- 2.4MB
Scala-升级版.docx
2021-10-14Scala快速入门(适合为学Spark学习Scala的同学)Word文档
- 2.90MB
基于spark的图书推荐系统
2023-06-15推荐系统是一种信息过滤系统,能够自动预测用户对特定产品或服务的偏好,并向其提供个性化的推荐。它通常基于用户的历史行为、个人喜好、兴趣和偏好等,通过数据挖掘和机器学习算法,在大数据的支持下生成个性化的推荐内容,从而提高用户购买率和满意度。推荐系统广泛应用于电子商务、社交媒体、新闻资讯、音乐、电影等领域。推荐系统的作用是根据用户的历史行为和偏好,为用户推荐个性化的内容,以满足用户的需求和兴趣。 在推荐系统架构中,离线计算部分主要使用 Hadoop、Spark、Hive 等大数据处理技术,将海量历史数据进行离线处理,构建出推荐模型。在线计算部分则使用 Flask、Django 或 Tornado 等 Web 应用框架,将推荐模型部署到 Web 服务器上,实现实时推荐服务。
- 743KB
大数据期末课设~基于spark的气象数据处理与分析
2022-12-14大数据期末课设~基于spark的气象数据处理与分析 完整版Word 可以拿来直接交作业
- 550KB
全国职业技能大赛大数据赛项十套赛题(shtd)
2023-01-16使用Scala编写spark工程代码,将MySQL的shtd_store库中表user_info、sku_info、base_province、base_region、order_info、order_detail的数据增量抽取到Hive的ods库中对应表user_info、sku_info、base_province、base_region、order_info、order_detail中。 1、 抽取shtd_store库中user_info的增量数据进入Hive的ods库中表user_info。根据ods.user_info表中operate_time或create_time作为增量字段(即MySQL中每条数据取这两个时间中较大的那个时间作为增量字段去和ods里的这两个字段中较大的时间进行比较),只将新增的数据抽入,字段名称、类型不变,同时添加静态分区,分区字段类型为String,且值为当前比赛日的前一天日期(分区字段格式为yyyyMMdd)。使用hive cli执行show partitions ods.user_info命令,将结果截图粘贴至对应报告中;
- 69B
大数据全套教程完整版
2019-01-09大数据基础到精通完整版, 涵盖技术点:python 基础 java基础,mysql,oracle,ssm框架,linux,hadoop,hbase,zookeeper,flume,scala,spark。资源宝贵,速度下载
- 26.74MB
全国2014-2018年空气质量csv数据集文件数据
2019-06-23全国2014-2018年空气质量csv数据集文件数据,包含字段time(时间),city(城市),AQI,PM2.5,PM10,SO2,NO2,CO,O3,primary_pollutant(主要污染物),共计55万条数据。
- 0B
spark-3.3.1-bin-3.0.0-cdh6.3.2.tgz
2022-11-23spark 3.3.1 使用 cdh 6.3.2 的hadoop版本。可以直接兼容并配合文档进行cdh spark-sql的使用。 具体查看https://editor.csdn.net/md/?articleId=127997188
- 1.1MB
Spark气象监测数据分析:代码整合,包括预处理,分析,数据可视化
2023-09-17【内容概要】 通过完整的气象监测数据处理与分析项目,了解Spark大数据分析的整体流程。代码涵盖数据工程、统计分析、机器学习预测建模等内容。可以学习如何使用Spark PySpark API处理大规模数据。 【适合人群】 具备一定Python编程基础,需要处理分析大规模数据的研发人员。 【能学到什么】 1. Spark数据处理:缺失值处理、降噪、特征工程等数据预处理技术 2. 统计分析:分组聚合、相关性分析、异常检测等统计方法 3. 机器学习:时间序列预测模型设计、集成学习提升效果 4. 微服务:模型API和Docker部署,提供后端服务 【学习建议】 项目代码完整覆盖了大数据分析全流程。在学习过程中,需要结合代码注释和文档,了解设计思路和背后的原理。同时调试并运行示例代码,加深理解。欢迎提出改进意见。
- 9.26MB
基于hadoop和echarts的教育大数据可视化系统
2023-05-04在线教育平台现在是教育体系的重要组成部分,在当前大数据时代的背景下,促进教育机构建立统一平台、统一资源管理的数字化教学系统。如何评估系统平台的健康程度、学生的学习体验和在线课程的质量对于课程的教师和学校的管理人员都是非常重要的,这是进行数据分析的主要目的。可视化是一个重要的途径,它能够帮助大数据获得完整的数据图表并挖掘数据的价值,大数据分析离不开可视化这一工具的推动。 基于hadoop和echarts的教育大数据可视化系统,以B/S模式开发。通过Hadoop中Sqoop进行数据导入转换。以MapReduce构建数据分析,数据分析维度包括每日登录人数分析、平均学习时长分析、学习行为次数分析、每日活跃情况分析和分时段学习人数分析。最终使用ECharts可视化工具来对在线教育平台在学习过程中产生的数据进行可视化大屏展现,让更多人感受到可视化大数据的魅力。
- 1.71MB
python爬虫爬取股票评论,调用百度AI进行语义分析, matlab数据处理,股票涨跌和评论的关系
2019-03-22python爬虫爬取股票评论, 调用百度AI进行语义分析, matlab数据处理, excel作图 股票涨跌和评论的关系
- 9.96MB
大数据面试大总结300页.zip
2021-07-18大数据面试大总结300页.zip
- 221.10MB
spark-3.1.3-bin-hadoop3.2.tgz
2022-05-19Apache Spark版本3.1.3。Linux安装包。spark-3.1.3-bin-hadoop3.2.tgz
- 36.99MB
sbt-1.9.0.tgz
2023-08-07sbt-1.9.0.tgz
- 1.89MB
实验七:Spark初级编程实践
2022-07-151、实验环境: 设备名称 LAPTOP-9KJS8HO6 处理器 Intel(R) Core(TM) i5-10300H CPU @ 2.50GHz 2.50 GHz 机带 RAM 16.0 GB (15.8 GB 可用) 主机操作系统 Windows 10 家庭中文版 虚拟机操作系统 ubuntukylin-16.04 Hadoop 版本 3.1.3 JDK 版本 1.8 Java IDE:Eclipse 系统类型 64 位操作系统, 基于 x64 的处理器 笔和触控 没有可用于此显示器的笔或触控输入 2、实验内容与完成情况: 1. 安装hadoop和spark。 将下载好的安装包解压至固定路径并安装 使用命令./bin/spark-shell启动spark 图2启动spark 2. Spark读取文件系统的数据 (1) 在spark-shell中读取Linux系统本地文件“/home/hadoop/test.txt”,然后统计出文件的行数; 图3 spark统计行数 (2) 在spark-shell中读取HDFS系统文件“/user/hadoop/test.txt”(
- 565KB
Link Prediction相似性计算方法示例.rar
2020-02-15根据吕琳媛、周涛《链路预测》中的相似性指标计算示例,参考附录提供的代码分别用python和matlab实现CN、Jaccard、RA指标的计算。并用书中提供了简单的五点的无权无向网络进行测试,结果与作者的计算吻合。 内含文件如下: (1)书中相似性指标计算示例原文 (2)网络的邻接表.txt文件 (3)matlab代码 (4)python代码 (5)python生成的网络图
- 3.43MB
基于Spark的电影数据集分析
2022-06-24该项目是大三下学期的课程设计,使用的数据集来自知名数据网站 Kaggle 的 tmdb-movie-metadata 电影数据集,以Python为编程语言,使用大数据框架Spark对数据进行了预处理,然后分别从多个方面对数据进行了分类和分析,并对分析结果进行可视化。里面包含我的课程设计报告和完整的代码。希望对你们有帮助。
- 609KB
RDD编程初级实践-答案-实验报告-纠正版
2024-04-14根据RDD编程初级实践-答案-厦门大学进行重新实验操作Scala(Java)Spark编程;编写独立应用程序实现数据去重;编写独立应用程序实现求平均值问题;熟悉Spark的RDD基本操作及键值对操作;熟悉使用RDD编程解决实际具体问题的方法
- 9.2MB
基于Spark的零售交易数据分析
2022-06-24该项目是大三下学期的课程设计,选取了共541909条数据,以Python为编程语言,使用大数据框架Spark对数据进行了预处理,然后分别从多个方面对数据进行了分类和分析,并对分析结果进行可视化。里面包含我的课程设计报告和完整的代码。希望对你们有帮助。
- 59.60MB
大数据项目源代码,电影推荐系统Movie_recommend-master
2019-04-10大数据项目源代码,电影推荐系统Movie_recommend-master,包括实时推荐和离线推荐
- 447KB
工信部:工业数据分类分级指南(试行)
2020-03-06【导读】工业和信息化部近日印发《工业数据分类分级指南(试行)》,《指南》适用于工业和信息化主管部门、工业企业、平台企业等开展工业数据分类分级工作。其所指工业数据是工业领域产品和服务全生命周期产生和应用的数据,包括但不限于工业企业在研发设计、生产制造、经营管理、运维服务等环节中生成和使用的数据,以及工业互联网平台企业在设备接入、平台运行、工业APP应用等过程中生成和使用的数据。
- 6.57MB
大数据实验报告,1-8合集 熟悉常用的HBase操作 熟悉常用的mongoDB数据库操作等等
2023-11-19大数据实验报告,1-8合集 熟悉常用的HBase操作 熟悉常用的mongoDB数据库操作等等 大数据实验报告(实验一到八) 实验一: 熟悉常用的Linux操作和Hadoop操作 实验二: 熟悉常用的HDFS操作 实验三: 熟悉常用的HBase操作 实验四: 熟悉常用的mongoDB数据库操作 实验五: MapReduce初级编程实践 实验六: 熟悉Hive的基本操作 实验七: Spark初级编程实践 实验八: Flink初级编程实践
- 26.74MB
全国2014-2018年空气质量csv数据集文件数据.csv
2019-11-29全国2014-2018年空气质量csv数据集文件数据,包含字段time(时间),city(城市),AQI,PM2.5,PM10,SO2,NO2,CO,O3,primary_pollutant(主要污染物),共计55万条数据。