Spark机器学习:核心技术与实践
作者:Alex Tellez,Michal Malohlava
出版社:机械工业出版社
ISBN:9787111598466
VIP会员免费
(仅需0.8元/天)
¥ 30.0
温馨提示: 价值40000元的1000本电子书,VIP会员随意看哦!
电子书推荐
-
Spark机器学习推荐模型数据集 评分:
我们将使用推荐引擎中使用的电影打分数据集,这个数据集主要分为三个部 分:第一个是电影打分的数据集(在u.data文件中), 第二个是用户数据(u.user),第三个是电影数据(u.item)。除此之外,我们从题材文件中获取了每个电影的题材(u.genre)。
上传时间:2016-06 大小:4.52MB
- 5.65MB
基于spark的电影推荐系统数据集
2015-05-27基于spark的电影推荐系统数据集
- 61KB
Spark开发实例(编程实践)
2021-01-07本节将介绍如何实际动手进行 RDD 的转换与操作,以及如何编写、编译、打包和运行 Spark 应用程序。 启动 Spark Shell Spark 的交互式脚本是一种学习 API 的简单途径,也是分析数据集交互的有力工具。Spark 包含多种运行模式,可使用单机模式,也可以使用分布式模式。为简单起见,本节采用单机模式运行 Spark。 无论采用哪种模式,只要启动完成后,就初始化了一个 SparkContext 对象(SC),同时也创建了一个 SparkSQL 对象用于 SparkSQL 操作。进入 Scala 的交互界面中,就可以进行 RDD 的转换和行动操作。 进入目录 SPARK_HOM
- 8.92MB
MovieLens 100k,1M数据集
2017-11-17MovieLens 100k,1M数据集 ,内涵中文文档(中文ReadeMe)介绍数据(友情提示:请用Notepad++打开)
- 5.65MB
movielens 1M数据集推荐电影评分
2019-04-10适用于做推荐或者点击率预测的数据集,包含6000个用户对4000个电影超过一亿次的评分,可以在笔记本上跑的数据集
- 5.72MB
Movielens 1M数据集
2018-04-27Movielens 1M数据集,包括电影数据,用户数据和用户对电影评分数据以及read me。
- 6.82MB
MovieLens 1M数据集
2019-02-15利用python进行数据分析MovieLens 1M数据集。原始数据参见http://www.grouplens.org/node/73
- 10.98MB
Spark机器学习1
2022-08-04内 容 提 要本书每章都设计了案例研究,以机器学习算法为主线,结合实例探讨了 Spark 的实际应用。书中没有让人抓狂的数据公式,而是从准备和正确认识数据开始讲
- 589KB
大数据框架学习:从Hadoop到Spark
2021-02-25Hadoop软件库是一个利用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理的框架。特点:部署成本低、扩展方便、编程模型简单。Hadoop实现了在行业标准的服务器上进行可靠、可缩放的分布式计算,让你能够以较低的预算跟踪数PB以上的数据,而不必需要超级计算机和其他昂贵的专门硬件。Hadoop还能够从单台服务器扩展到数千台计算机,检测和处理应用程序层上的故障,从而提高可靠性。1、HadoopCommon:ThecommonutilitiesthatsupporttheotherHadoopmodules.2、HadoopDistributedFileSystem(HDFS:tm:):Ad
- 837KB
Spark MLlib机器学习第1周
2019-08-10Spark MLlib机器学习 黄美灵,网名:sunbow,Spark爱好者,现从事移动互联网的计算广告和数据变现工作。 《Spark MLlib机器学习:算法、源码及实战详解》作者
- 736B
Spark 2.x + Python 大数据机器学习实战
2021-08-06Spark 2.x + Python 大数据机器学习实战,本课程系统讲解如何在Spark2.0上高效运用Python来处理数据并建立机器学习模型,帮助读者开发并部署高效可拓展的实时Spark解决方案。
- 24.4MB
Spark机器学习实战介绍
2023-04-25Spark机器学习实战介绍
- 5.77MB
MovieLens 1m数据集包含数据库设计和属性详解
2016-11-03部分详解,还包括数据库设计 一、使用 GroupLens_MovieLens数据集,该数据集囊括了10几年的电影评分数据 1. 概述 该数据集包含2000年起,6040个用户对大概3900部电影的1000209条评分数据。该数据集项目1992年开始就被使用在研究协同过滤和改进的协同过滤上。 二、 该数据集包含三个文件:movies.dat ratings.dat user.dat 1. Movies.dat : a. 包含数据:MovieID,Title,Genres b. Genres :流派 1* Action :动作 2* Adventure :冒险 3* Animation :动画 4* Children's :儿童 5* Comedy :喜剧 6* Crime :犯罪 7* Documentary :纪录片 8* Drama :戏剧
- 5.72MB
movielens数据集-1M
2013-01-15files contain 1,000,209 anonymous ratings of approximately 3,900 movies made by 6,040 MovieLens users who joined MovieLens in 2000.
- 32.4MB
Spark 入门实战系列
2018-01-18Spark 入门实战系列,适合初学者,文档包括十部分内容,质量很好,为了感谢文档作者,也为了帮助更多的人入门,传播作者的心血,特此友情转贴: 1.Spark及其生态圈简介.pdf 2.Spark编译与部署(上)--基础环境搭建.pdf 2.Spark编译与部署(下)--Spark编译安装.pdf 2.Spark编译与部署(中)--Hadoop编译安装.pdf 3.Spark编程模型(上)--概念及SparkShell实战.pdf 3.Spark编程模型(下)--IDEA搭建及实战.pdf 4.Spark运行架构.pdf 5.Hive(上)--Hive介绍及部署.pdf 5.Hive(下)--Hive实战.pdf 6.SparkSQL(上)--SparkSQL简介.pdf 6.SparkSQL(下)--Spark实战应用.pdf 6.SparkSQL(中)--深入了解运行计划及调优.pdf 7.SparkStreaming(上)--SparkStreaming原理介绍.pdf 7.SparkStreaming(下)--SparkStreaming实战.pdf 8.SparkMLlib(上)--机器学习及SparkMLlib简介.pdf 8.SparkMLlib(下)--SparkMLlib实战.pdf 9.SparkGraphX介绍及实例.pdf 10.分布式内存文件系统Tachyon介绍及安装部署.pdf
- 496KB
Spark实战.docx
2018-06-011. Spark是特性 高可伸缩性 高容错 于内存计算 2. Spark的生态体系(BDAS,中文:伯利克分析栈) MapReduce属于Hadoop生态体系之一,Spark则属于BDAS生态体系之一 Hadoop包含了MapReduce、HDFS、HBase、Hive、Zookeeper、Pig、Sqoop等 BDAS包含了Spark、Shark(相当于Hive)、BlinkDB、Spark Streaming(消息实时处理框架,类似Storm)等等 3. Spark与MapReduce 优势: MapReduce通常将中间结果放到HDFS上,Spark是基于内存并行大数据框架,中间结果存放到内存,对于迭代数据Spark效率高。 MapReduce总是消耗大量时间排序,而有些场景不需要排序,Spark可以避免不必要的排序所带来的开销 Spark是一张有向无环图(从一个点出发最终无法回到该点的一个拓扑),并对其进行优化。 4. Spark支持的API Scala、Python、Java等 5. 运行模式 Local (用于测试、开发) Standlone (独立集群模式) Spark on Yarn (Spark在Yarn上) Spark on Mesos (Spark在Mesos)
- 56.26MB
Learning.Spark.pdf(英文版)+图解Spark核心技术与案例实战.pdf
2017-12-22Learning.Spark.pdf(英文版)+图解Spark核心技术与案例实战.pdf
- 300KB
用Spark进行大数据处理之机器学习篇
2021-02-25在本篇文章,作者将讨论机器学习概念以及如何使用SparkMLlib来进行预测分析。后面将会使用一个例子展示SparkMLlib在机器学习领域的强悍。Spark机器学习API包含两个package:spark.mllib和spark.ml。spark.mllib包含基于弹性数据集(RDD)的原始Spark机器学习API。它提供的机器学习技术有:相关性、分类和回归、协同过滤、聚类和数据降维。spark.ml提供建立在DataFrame的机器学习API,DataFrame是SparkSQL的核心部分。这个包提供开发和管理机器学习管道的功能,可以用来进行特征提取、转换、选择器和机器学习算法,比如分类和
- 86KB
Spark学习笔记—Spark计算模型
2021-01-07一.弹性分布式数据集-RDD RDD是Spark核心数据结构,它是逻辑集的实体,在集群中多台机器之间进行数据分区,通过对多台机器上RDD分区的控制,能够减少数据的重排(data Shuffling)。Spark通过partitionBy运算符对原始RDD进行数据再分配从而创建一个新的RDD。通过RDD之间的依赖关系形成了Spark的调度顺序。 1.RDD的几种创建方式: (1).从hadoop文件系统输入创建如HDFS,也可以是其他与hadoop兼容的持久化存储系统如Hive,Hbase创建。 (2).从父RDD转换得到新的RDD。 (3).调用SparkContext的parallelize
- 35.8MB
Spark机器学习案例实战.pdf
2021-07-25大数据培训期间,课堂教材
- 90.98MB
Spark:零基础实战
2018-12-05Spark:零基础实战
- 46.9MB
Spark大数据处理技术、应用与性能优化高清完整版PDF
2017-12-22Spark大数据处理:技术、应用与性能优化高清完整版PDF
- 16.54MB
spark3D:Spark扩展,用于处理大型3D数据集:天体物理学,高能物理,气象学,…
2021-01-28最新消息 [05/2018] GSoC 2018 :spark3D已被选为Google Summer of Code(GSoC)2018。恭喜将于今年参与该项目! [06/2018]发行:版本0.1.0,0.1.1 [07/2018]新位置:spark3D是的官方项目! [07/2018]发行:版本0.1.3、0.1.4、0.1.5 [08/2018]发行:版本0.2.0,0.2.1(pyspark3d) [09/2018]发行:版本0.2.2 [11/2018]版本:版本0.3.0,0.3.1(新的DataFrame API) 基本原理 spark3D应该被视为Apache Spark框架(尤其是Spark SQL模块)的扩展,重点是对三维数据集的操作。 为什么要使用spark3D? 如果您经常需要对大型空间3D数据集进行分区或执行空间查询(邻居搜索,窗口查询,交叉匹配,聚类...),spark3D非常适合您。 它包含优化的类和方法,从而节省了实现时间! 此外,所有这些扩展的一大优势是可以通过快速构建数据集的表示形式来有效地执行大型数据集的可视化(请参阅更多)。 sp
- 314KB
adult数据集分析
2018-02-15adult数据集数据挖掘,基于python语言的决策树算法,源码+数据adult数据集数据挖掘,基于python语言的决策树算法,源码+数据adult数据集数据挖掘,基于python语言的决策树算法,源码+数据adult数据集数据挖掘,基于python语言的决策树算法,源码+数据
- 68.73MB
免费下载Navicat15安装包+工具+教程.zip
2021-06-21Navicate Premium 15 安装包+工具+教程
- 8KB
cmu 15445 2023spring project0
2023-05-202023的入门实验,cow Trie。
- 1.55MB
人大金仓驱动包kingbasejdbc.jar V8.6.0、8.8.0驱动jar包
2023-04-10kingbase JDBC 8.6.0 驱动jar包 kingbase JDBC 8.8.0 驱动jar包 maven 导入 <dependency> <groupId>com.kingbase8.jdbc</groupId> <artifactId>kingbase8</artifactId> <version>8.6.0</version> <scope>system</scope> <systemPath>${basedir}/src/main/resources/jar/kingbase8-8.6.0.jar</systemPath> </dependency> jdbc driver-class-name: com.kingbase8.Driver url: jdbc:kingbase8://127.0.0.1:54321/template1?characterEncoding=utf8 username: system password: 123123
- 1.80MB
人大金仓8.6.0、达梦8.1.2.79 连接驱动
2023-02-06人大金仓8.6.0、达梦8.1.2.79 连接驱动
- 311KB
全国省市县Excel汇总表(免费下载).xls
2020-05-23全国所有省份、城市、区县的Excel汇总表(按首字母进行排序),包含了各市的下辖区和县,信息比较详细。
- 1.17MB
数据分析-附件1.xlsx
2021-06-27数据分析-附件1.xlsx