推荐系统实践
作者:项亮
出版社:北京图灵文化发展有限公司
ISBN:9787115281586
VIP会员免费
(仅需0.8元/天)
¥ 19.99
温馨提示: 价值40000元的1000本电子书,VIP会员随意看哦!
电子书推荐
-
《数据算法Hadoop Spark大数据处理技巧》PDF 带目录!! 评分:
《数据算法:Hadoop/Spark大数据处理技巧》介绍了很多基本设计模式、优化技术和数据挖掘及机器学习解决方案,以解决生物信息学、基因组学、统计和社交网络分析等领域的很多问题。这还概要介绍了MapReduce、Hadoop和Spark。 主要内容包括: ■ 完成超大量交易的购物篮分析。 ■ 数据挖掘算法(K-均值、KNN和朴素贝叶斯)。 ■ 使用超大基因组数据完成DNA和RNA测序。 ■ 朴素贝叶斯定理和马尔可夫链实现数据和市场预测。 ■ 推荐算法和成对文档相似性。 ■ 线性回归、Cox回归和皮尔逊(Pearson)相关分析。 ■ 等位基因频率和DNA挖掘。 ■ 社交网络分析(推荐系统、三角形计数和情感分析)。 适读人群 :这本书面向了解Java基础知识并且想使用Hadoop和Spark 开发MapReduce 算法(数据挖掘、机器学习、生物信息技术、基因组和统计领域)和解决方案的软件工程师、软件架构师、数据科学家和应用开发人员。 目录 第1章二次排序:简介 19 第2章二次排序:详细示例 42 第3章 Top 10 列表 54 第4章左外连接 96 第5章反转排序 127 第6章移动平均 137 第7章购物篮分析 155 第8章共同好友 182 第9章使用MapReduce实现推荐引擎 201 第10章基于内容的电影推荐 225 第11章使用马尔可夫模型的智能邮件营销 .253 第12章 K-均值聚类 282 第13章 k-近邻 296 第14章朴素贝叶斯 315 第15章情感分析 349 第16章查找、统计和列出大图中的所有三角形 354 第17章 K-mer计数 375 第18章 DNA测序 390 第19章 Cox回归 413 第20章 Cochran-Armitage趋势检验 426 第21章等位基因频率 443 第22章 T检验 468 第23章皮尔逊相关系数 488 第24章 DNA碱基计数 520 第25章 RNA测序 543 第26章基因聚合 553 第27章线性回归 586 第28章 MapReduce和幺半群 600 第29章小文件问题 622 第30章 MapReduce的大容量缓存 635 第31章 Bloom过滤器 651Bloom
上传时间:2018-11 大小:76.44MB
- 63KB
数据算法--HadoopSpark大数据处理技巧.pdf
2022-12-24数据算法--HadoopSpark⼤数据处理技巧 data algorithms部分主题⾃写scala程序实现 SecondarySort (chapter 1) data 2015,1,1,10 2015,1,2,11 2015,1,3,12 2015,1,4,13 2015,2,1,22 2015,2,2,23 2015,2,3,24 2015,2,4,25 2015,3,1,20 2015,3,2,21 2015,3,3,22 2015,3,4,23 2015,3,4,23 2015,1,3,12 2015,2,2,23 code import org.apache.spark.sql.SparkSession import org.apache.spark.{Partitioner, SparkConf} class SecondarySortPartitioner(val v: Int) extends Partitioner { override def numPartitions: Int = { v } override def getPartition(key: Any): Int = key match { case (k: String, v: Int) => math.abs(k.hashCode % numPartitions) case null => 0 case _ => math.abs(key.hashCode % numPartitions) } } object SecondarySort { def main(args: Array[String]): Unit = { System.setProperty("hadoop.home.dir", "C:\\winutils-master\\hadoop-2.6.3") val conf = new SparkConf().setMaster("local").setAppName("SecondarySort") val context = SparkSession.builder().config(conf).getOrCreate().sparkContext val rdd = context.textFile("C:\\Users\\IdeaProjects\\spark_learning\\test.txt") val step1 = rdd.map(line => line.split(",")) .map(line => ((line(0) + "-" + line(1), line(3).toInt), line(3).toInt)) val step2 = step1.repartitionAndSortWithinPartitions(new SecondarySortPartitioner(4)) .map { case (k, v: Int) => (k._1, v.toString) }.reduceByKey((x, y) => x + "," + y) step2.foreach(println) } } CommonFriends (chapter 8) data 100,200 300 400 500 600 200,100 300 400 300,100 200 400 500 400,100 200 300 500,100 300 600,100 code import org.apache.spark.{HashPartitioner, SparkConf} import org.apache.spark.sql.SparkSession import scala.collection.mutable.ArrayBuffer object CommonFriends { def main(args: Array[String]): Unit = { System.setProperty("hadoop.home.dir", "C:\\winutils-master\\hadoop-2.6.3") val conf = new SparkConf().setMaster("local").setAppName("CommonFriends") val spark = SparkSession.builder().config(conf).getOrCreate() import spark.implicits._ val context = SparkSession.builder().config(conf).getOrCreate().sparkContext val rdd = context
- 160.94MB
数据算法: Hadoop+Spark大数据处理技巧.pdf
2018-06-08数据算法: Hadoop+Spark大数据处理技巧,pdf,高清,带书签,下载下来解压即可
- 162.10MB
数据算法 Hadoop Spark大数据处理技巧 中文PDF
2018-09-26《数据算法:Hadoop/Spark大数据处理技巧》介绍了很多基本设计模式、优化技术和数据挖掘及机器学习解决方案,以解决生物信息学、基因组学、统计和社交网络分析等领域的很多问题。这还概要介绍了MapReduce、Hadoop和Spark。
- 66.38MB
数据算法 Hadoop Spark大数据处理技巧
2018-01-08数据算法 Hadoop Spark大数据处理技巧··································································
- 162.4MB
数据算法 Hadoop Spark大数据处理技巧.zip
2019-07-03学习大数据经典书籍。学习Hadoop最权威书籍。介绍Hadoop各项技术。
- 100.0MB
Hadoop Spark大数据处理技巧
2018-04-15大数据开发技巧,包括聚类、关联、回归、共同好友算法等。有两部分,要同时解压才有用。
- 216.40MB
Hadoop/Spark大数据处理技巧
2018-02-16《数据算法:Hadoop/Spark算法》全书的PDF版,非影印非影印非影印!采用拍照的方式拍的,高清清晰
- 100.32MB
数据算法 Hadoop_Spark大数据处理技巧 ,马哈默德·帕瑞斯安 ,P680 ,2016.10.pdf
2018-04-20本书介绍了很多基本设计模式、优化技术和数据挖掘及机器学习解决方案,以解决生物信息学、基因组学、统计和社交网络分析等领域的很多问题。这本书还概要介绍了MapReduce、Hadoop和Spark。
- 1.55MB
论文研究-一种Spark环境下的高效率大规模图数据处理机制.pdf
2019-07-22其次,通过对分布式计算的特性分析采取适合大规模图的分割算法、数据抽取的优化以及缓存、计算层与持久层结合机制三方面来设计图数据处理框架。最后通过PageRank和SSSP算法设计实验,与MapReduce框架和采用HDFS作...
- 76.44MB
数据算法 Hadoop Spark大数据处理技巧
2018-01-13《数据算法:Hadoop/Spark大数据处理技巧》介绍了很多基本设计模式、优化技术和数据挖掘及机器学习解决方案,以解决生物信息学、基因组学、统计和社交网络分析等领域的很多问题。这还概要介绍了MapReduce、Hadoop和Spark。 主要内容包括: ■ 完成超大量交易的购物篮分析。 ■ 数据挖掘算法(K-均值、KNN和朴素贝叶斯)。 ■ 使用超大基因组数据完成DNA和RNA测序。 ■ 朴素贝叶斯定理和马尔可夫链实现数据和市场预测。 ■ 推荐算法和成对文档相似性。 ■ 线性回归、Cox回归和皮尔逊(Pearson)相关分析。 ■ 等位基因频率和DNA挖掘。 ■ 社交网络分析(推荐系统、三角形计数和情感分析)。
- 125B
数据算法:Hadoop、Spark大数据处理技巧
2019-07-23资源名称:数据算法:Hadoop、Spark大数据处理技巧资源截图: 资源太大,传百度网盘了,链接在附件中,有需要的同学自取。
- 100.37MB
数据算法-Hadoop Spark大数据处理技巧
2019-01-03数据算法-Hadoop Spark大数据处理技巧 1.
- 71.83MB
数据算法:Hadoop/Spark大数据处理技巧
2018-12-12数据算法:Hadoop/Spark大数据处理技巧
- 27.44MB
Spark原著中文版
2018-02-02Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点...
- 212KB
大数据处理流程.pdf
2022-12-24⼤数据处理流程 ⼤数据处理流程 1. 数据处理流程 ⽹站流量⽇志数据分析是⼀个纯粹的数据分析项⽬,其整体流程基本上就是依据数据的处理流程进⾏。有以下⼏个⼤的步骤: 1.1 数据采集 数据采集概念,⽬前⾏业会有两...
- 982KB
论文研究-基于Spark无线城市社团发现算法的研究.pdf
2019-07-22针对已有的社团发现算法存在时间复杂度较高、运行过程会产生大量重复团等问题,引入...实验结果表明,S-T-CS算法解决了生成结果冗余的问题,降低了时间代价,提升了社团发现算法的运行速度和对海量数据的处理能力。
- 813KB
论文研究-Spark平台下的凸包问题研究.pdf
2019-09-10随着移动互联网时代的到来,越来越多的含地理位置信息的空间数据需要处理,如何在海量的空间数据中进行常见的几何查询成为一个挑战,凸包问题因其在模式识别、图像处理、统计学、地理信息系统、博弈论、图论等领域中...
- 546KB
安全数据科学分享.pdf
2021-08-07FrameWork • 机器学习的基本概念 • 机器学习在安全领域的应用 • 如何入门和学习安全数据分析 ..... 如何学习安全数据分析? 1、先学习基本的算法原理,补充...5、学习大规模数据处理——spark hadoop storm 6、.....
- 16.27MB
数据算法++Hadoop+Spark大数据处理技巧
2018-08-08数据算法++Hadoop+Spark大数据处理技巧相关的源码,该源码是最新的支持 hadoop2.6.x,spark 2.3.x,scala 2.11.x
- 59.0MB
数据算法 Hadoop Spark大数据处理技巧(1/3)
2017-10-19中文版,一共3卷,第1卷。了解spark技术内幕 了解spark技术内幕
- 204.26MB
数据算法Hadoop/Spark大数据处理技巧 源代码
2018-05-11数据算法Hadoop/Spark大数据处理技巧 源代码 内有部分数据集
- 43.26MB
数据算法 Hadoop Spark大数据处理技巧(3/3)
2017-10-19中文版,一共3卷,第3卷。了解spark技术内幕 了解spark技术内幕
- 3.78MB
大数据基础知识入门.pdf
2022-12-24Spark Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。 Spark在借鉴Hadoop MapReduce优点的同时,很好地解决了MapReduce所面临的问题。 Spark的计算模式也属于MapReduce,但不局限于Map和Reduce...
- 59.0MB
数据算法 Hadoop Spark大数据处理技巧(2/3)
2017-10-19中文版,一共3卷,第2卷。了解spark技术内幕 了解spark技术内幕