scikit-learn机器学习:常用算法原理及编程实战
电子书推荐
-
数据算法:Hadoop/Spark大数据处理技巧.pdf 中文扫描版 带标签 评分:
《数据算法:Hadoop/Spark大数据处理技巧》介绍了很多基本设计模式、优化技术和数据挖掘及机器学习解决方案,以解决生物信息学、基因组学、统计和社交网络分析等领域的很多问题。这还概要介绍了MapReduce、Hadoop和Spark。 主要内容包括: ■ 完成超大量交易的购物篮分析。 ■ 数据挖掘算法(K-均值、KNN和朴素贝叶斯)。 ■ 使用超大基因组数据完成DNA和RNA测序。 ■ 朴素贝叶斯定理和马尔可夫链实现数据和市场预测。 ■ 推荐算法和成对文档相似性。 ■ 线性回归、Cox回归和皮尔逊(Pearson)相关分析。 ■ 等位基因频率和DNA挖掘。 ■ 社交网络分析(推荐系统、三角形计数和情感分析)。 适读人群 :这本书面向了解Java基础知识并且想使用Hadoop和Spark 开发MapReduce 算法(数据挖掘、机器学习、生物信息技术、基因组和统计领域)和解决方案的软件工程师、软件架构师、数据科学家和应用开发人员。 目录 第1章二次排序:简介 19 第2章二次排序:详细示例 42 第3章 Top 10 列表 54 第4章左外连接 96 第5章反转排序 127 第6章移动平均 137 第7章购物篮分析 155 第8章共同好友 182 第9章使用MapReduce实现推荐引擎 201 第10章基于内容的电影推荐 225 第11章使用马尔可夫模型的智能邮件营销 .253 第12章 K-均值聚类 282 第13章 k-近邻 296 第14章朴素贝叶斯 315 第15章情感分析 349 第16章查找、统计和列出大图中的所有三角形 354 第17章 K-mer计数 375 第18章 DNA测序 390 第19章 Cox回归 413 第20章 Cochran-Armitage趋势检验 426 第21章等位基因频率 443 第22章 T检验 468 第23章皮尔逊相关系数 488 第24章 DNA碱基计数 520 第25章 RNA测序 543 第26章基因聚合 553 第27章线性回归 586 第28章 MapReduce和幺半群 600 第29章小文件问题 622 第30章 MapReduce的大容量缓存 635 第31章 Bloom过滤器 651Bloom
上传时间:2018-02 大小:76.44MB
- 63KB
数据算法--HadoopSpark大数据处理技巧.pdf
2022-12-24数据算法--HadoopSpark⼤数据处理技巧 data algorithms部分主题⾃写scala程序实现 SecondarySort (chapter 1) data 2015,1,1,10 2015,1,2,11 2015,1,3,12 2015,1,4,13 2015,2,1,22 2015,2,2,23 2015,2,3,24 2015,2,4,25 2015,3,1,20 2015,3,2,21 2015,3,3,22 2015,3,4,23 2015,3,4,23 2015,1,3,12 2015,2,2,23 code import org.apache.spark.sql.SparkSession import org.apache.spark.{Partitioner, SparkConf} class SecondarySortPartitioner(val v: Int) extends Partitioner { override def numPartitions: Int = { v } override def getPartition(key: Any): Int = key match { case (k: String, v: Int) => math.abs(k.hashCode % numPartitions) case null => 0 case _ => math.abs(key.hashCode % numPartitions) } } object SecondarySort { def main(args: Array[String]): Unit = { System.setProperty("hadoop.home.dir", "C:\\winutils-master\\hadoop-2.6.3") val conf = new SparkConf().setMaster("local").setAppName("SecondarySort") val context = SparkSession.builder().config(conf).getOrCreate().sparkContext val rdd = context.textFile("C:\\Users\\IdeaProjects\\spark_learning\\test.txt") val step1 = rdd.map(line => line.split(",")) .map(line => ((line(0) + "-" + line(1), line(3).toInt), line(3).toInt)) val step2 = step1.repartitionAndSortWithinPartitions(new SecondarySortPartitioner(4)) .map { case (k, v: Int) => (k._1, v.toString) }.reduceByKey((x, y) => x + "," + y) step2.foreach(println) } } CommonFriends (chapter 8) data 100,200 300 400 500 600 200,100 300 400 300,100 200 400 500 400,100 200 300 500,100 300 600,100 code import org.apache.spark.{HashPartitioner, SparkConf} import org.apache.spark.sql.SparkSession import scala.collection.mutable.ArrayBuffer object CommonFriends { def main(args: Array[String]): Unit = { System.setProperty("hadoop.home.dir", "C:\\winutils-master\\hadoop-2.6.3") val conf = new SparkConf().setMaster("local").setAppName("CommonFriends") val spark = SparkSession.builder().config(conf).getOrCreate() import spark.implicits._ val context = SparkSession.builder().config(conf).getOrCreate().sparkContext val rdd = context
- 23.20MB
Hadoop+Spark生态系统操作与实践指南-余辉.pdf
2019-07-17Hadoop、Spark、hive、mapReduce经典学习资料
- 160.94MB
数据算法: Hadoop+Spark大数据处理技巧.pdf
2018-06-08数据算法: Hadoop+Spark大数据处理技巧,pdf,高清,带书签,下载下来解压即可
- 204.26MB
数据算法Hadoop/Spark大数据处理技巧 源代码
2018-05-11数据算法Hadoop/Spark大数据处理技巧 源代码 内有部分数据集
- 116B
数据算法 Hadoop Spark大数据处理技巧
2018-11-12百度云下载链接
- 71.83MB
数据算法:Hadoop/Spark大数据处理技巧
2018-12-12数据算法:Hadoop/Spark大数据处理技巧
- 59.0MB
数据算法 Hadoop Spark大数据处理技巧(1/3)
2017-10-19中文版,一共3卷,第1卷。了解spark技术内幕 了解spark技术内幕
- 216.40MB
Hadoop/Spark大数据处理技巧
2018-02-16《数据算法:Hadoop/Spark算法》全书的PDF版,非影印非影印非影印!采用拍照的方式拍的,高清清晰
- 125B
数据算法:Hadoop、Spark大数据处理技巧
2019-07-23资源名称:数据算法:Hadoop、Spark大数据处理技巧资源截图: 资源太大,传百度网盘了,链接在附件中,有需要的同学自取。
- 162.10MB
数据算法 Hadoop Spark大数据处理技巧 中文PDF
2018-09-26《数据算法:Hadoop/Spark大数据处理技巧》介绍了很多基本设计模式、优化技术和数据挖掘及机器学习解决方案,以解决生物信息学、基因组学、统计和社交网络分析等领域的很多问题。这还概要介绍了MapReduce、Hadoop和Spark。
- 504KB
常用大数据量、海量数据处理方法__算法总结.pdf
2019-07-30大数据常用的处理算法总结,包括hash算法,分治算法,bloom filter,等等
- 91.57MB
《大数据算法》┊王宏志PDF
2018-05-24《大数据算法》┊王宏志著,高清完整PDF。仅供学习参考!
- 67.62MB
大数据-日知录-架构-算法(PDF高清完整版)
2017-11-23内容简介 大数据是当前最为流行的热点概念之一,其已由技术名词衍生到对很多行业产生颠覆性影响的社会现象,作为最明确的技术发展趋势之一,基于大数据的各种新型产品必将会对每个人的日常生活产生日益重要的影响。 《大数据日知录:架构与算法》从架构与算法角度全面梳理了大数据存储与处理的相关技术。大数据技术具有涉及的知识点异常众多且正处于快速演进发展过程中等特点,其技术点包括底层的硬件 体系结构、相关的基础理论、大规模数据存储系统、分布式架构设计、各种不同应用场景下的差异化系统设计思路、机器学习与数据挖掘并行算法以及层出不穷的新架构、新系统等。《大数据日知录:架构与算法》对众多纷繁芜杂的相关技术文献和系统进行了择优汰劣并系统性地对相关知识分门别类地进行整理和介绍,将大数据相关技术分为大数据基础理论、大数据系统体系结构、大数据存储,以及包含批处理、流式计算、交互式数据分析、图数据库、并行机器学习的架构与算法以及增量计算等技术分支在内的大数据处理等几个大的方向。通过这种体系化的知识梳理与讲解,相信对于读者整体和系统地了解、吸收和掌握相关的优秀技术有极大的帮助与促进作用。 《大数据日知录:架构与算法》的读者对象包括对NoSQL 系统及大数据处理感兴趣的所有技术人员,以及有志于投身到大数据处理方向从事架构师、算法工程师、数据科学家等相关职业的在校本科生及研究生。
- 5.56MB
《Hadoop&Spark;原理、运维、与开发》.pdf
2019-01-09原地址: http://blog.sina.com.cn/s/blog_55d99cc20102yapo.html
- 100.37MB
数据算法-Hadoop Spark大数据处理技巧
2019-01-03数据算法-Hadoop Spark大数据处理技巧 1.
- 71.54MB
数据算法:Hadoop+Spark大数据 中文版
2017-12-06数据算法:Hadoop+Spark大数据 中文版 高清版 良心资源
- 65.86MB
spark 数据算法 Hadoop/Spark大数据处理技巧(Data Algorithms)
2018-12-11spark 数据算法 Hadoop/Spark大数据处理技巧(Data Algorithms) ,算法详解电子书
- 50.0MB
数据算法:Hadoop Spark大数据处理技巧.(美)马哈默德·帕瑞斯安(Mahmoud Parsian).中国电力出版社.2016.10
2017-10-02数据算法:Hadoop Spark大数据处理技巧.(美)马哈默德·帕瑞斯安(Mahmoud Parsian).中国电力出版社.2016.10
- 23.0MB
数据算法:Hadoop Spark大数据处理技巧(第二部分)
2017-10-02数据算法:Hadoop Spark大数据处理技巧.(美)马哈默德·帕瑞斯安(Mahmoud Parsian).中国电力出版社.2016.10
- 43.26MB
数据算法 Hadoop Spark大数据处理技巧(3/3)
2017-10-19中文版,一共3卷,第3卷。了解spark技术内幕 了解spark技术内幕
- 178KB
《 大数据量级的数据处理算法》PDF
2017-11-25《 大数据量级的数据处理算法》PDF。 。
- 179KB
大数据处理算法.pdf
2021-10-02大数据处理算法.pdf
- 36.22MB
Hadoop-Spark大数据处理技巧.pdf
2017-12-06大数据的目的是使用某种方法解决具体的问题,这本书指出了在大数据处理过程中的技巧话问题
- 164.31MB
Hadoop与Spark 肖睿+PDF
2019-08-18大数据技术让我们以一种靠前的方式,对海量数据进行分析,从中获得有巨大价值的产品和服务,很终形成变革之力。本书围绕Hadoop和Spark两个主流大数据技术进行讲解,主要内容包括Hadoop环境配置、Hadoop分布式文件系统(HDFS)、Hadoop分布式计算框架MapReduce、Hadoop资源调度框架YARN与Hadoop新特性、Hadoop分布式数据库HBase、数据仓库Hive、大数据离线处理辅助系统、Spark Core、Spark SQL、Spark Streaming等知识。本书紧密结合实际应用,运用大量案例说明和实践,提炼含金量十足的开发经验。另外,本书配以多元的学习资源和支持服务,包括视频教程、案例素材下载、学习交流社区、讨论组等学习内容, 为读者带来多方面的学习体验。
- 162.4MB
数据算法 Hadoop Spark大数据处理技巧.zip
2019-07-03学习大数据经典书籍。学习Hadoop最权威书籍。介绍Hadoop各项技术。
- 64B
Hadoop+Spark 教程系列
2018-05-18视频内容包括教程和实战项目,视频无加密。 链接如果失效请邮箱联系~
- 2.74MB
Scaling Big Data with Hadoop and Solr
2015-12-07As data grows exponentially day-by-day, extracting information becomes a tedious activity in itself. Technologies like Hadoop are trying to address some of the concerns, while Solr provides high-speed faceted search. Bringing these two technologies together is helping organizations resolve the problem of information extraction from Big Data by providing excellent distributed faceted search capabilities. Scaling Big Data with Hadoop and Solr is a step-by-step guide that helps you build high performance enterprise search engines while scaling data. Starting with the basics of Apache Hadoop and Solr, this book then dives into advanced topics of optimizing search with some interesting real-world use cases and sample Java code.
- 685.0MB
hadoop-3.3.4.tar.gz + winutils 安装环境
2023-08-03【开发环境】安装 Hadoop 运行环境 ( 下载 Hadoop | 解压 Hadoop | 设置 Hadoop 环境变量 | 配置 Hadoop 环境脚本 | 安装 winutils ) https://hanshuliang.blog.csdn.net/article/details/132045605 一、下载 Hadoop 二、解压 Hadoop 三、设置 Hadoop 环境变量 四、配置 Hadoop 环境脚本 五、安装 winutils 六、重启电脑 七、验证 Hadoop 安装效果
- 191.6MB
项目源码:基于Hadoop+Spark招聘推荐可视化系统 大数据项目 计算机毕业设计
2023-10-30项目源码:基于Hadoop+Spark招聘推荐可视化系统 大数据项目 计算机毕业设计 基于Hadoop+Spark的招聘推荐可视化系统是一种利用Hadoop和Spark等大数据处理技术,实现招聘推荐和可视化展示的应用系统。以下是该系统的主要介绍: 数据采集:系统通过各种渠道(如招聘网站、社交媒体等)获取大量的招聘相关数据,包括职位信息、公司信息、求职者信息等。这些数据以结构化或半结构化形式存在。 数据存储与处理:系统利用Hadoop分布式文件系统(HDFS)存储采集到的招聘数据,并使用Hadoop生态圈中的工具(如Hive、HBase等)进行数据处理和管理。Spark作为数据处理引擎,提供高性能的批处理和实时计算能力,对招聘数据进行清洗、转换和特征提取等操作。 招聘推荐:系统利用Spark的机器学习库(如MLlib)构建候选模型,通过对求职者的个人资料、工作经历、技能等特征进行分析,匹配合适的职位和公司。系统可以根据用户的偏好和需求,向其推荐最相关的招聘信息。 可视化展示:系统利用可视化工具(如matplotlib、Plotly等)将招聘数据以各种图表、图形等形式可视化展示。