scikit-learn机器学习:常用算法原理及编程实战
电子书推荐
-
数据算法 Hadoop Spark大数据处理技巧 (完整版) 评分:
破解基因组的奥秘实在是奥妙无穷,他把知识、思维方法和科技能力紧密融合在一起,将带来变革性的发展。 不过,这种变革还需要联合和协同,而协同少不了深层次的协作。从科学家到软件工程师,从学术界到企业界, 我们需要通力合作,朝着基因主导的未来稳步前进。 MapReduce\Hadoop和Spark是帮助我们大规模使用基因测序以及存储、处理和分析基因组“大数据”的关键技术。 Mahmoud的这本书采用一种简明而实用的方式介绍了这些内容。本书就像一盏灯,为数据科学家、软件工程师以及临床医生 照亮了破解基因组奥秘的道路。在这本书的帮助下,人类健康将进入一个讲求精确、个性化和转化的新纪元。 --Jay Flatley(Illumina CEO)
上传时间:2017-11 大小:86B
- 63KB
数据算法--HadoopSpark大数据处理技巧.pdf
2022-12-24数据算法--HadoopSpark⼤数据处理技巧 data algorithms部分主题⾃写scala程序实现 SecondarySort (chapter 1) data 2015,1,1,10 2015,1,2,11 2015,1,3,12 2015,1,4,13 2015,2,1,22 2015,2,2,23 2015,2,3,24 2015,2,4,25 2015,3,1,20 2015,3,2,21 2015,3,3,22 2015,3,4,23 2015,3,4,23 2015,1,3,12 2015,2,2,23 code import org.apache.spark.sql.SparkSession import org.apache.spark.{Partitioner, SparkConf} class SecondarySortPartitioner(val v: Int) extends Partitioner { override def numPartitions: Int = { v } override def getPartition(key: Any): Int = key match { case (k: String, v: Int) => math.abs(k.hashCode % numPartitions) case null => 0 case _ => math.abs(key.hashCode % numPartitions) } } object SecondarySort { def main(args: Array[String]): Unit = { System.setProperty("hadoop.home.dir", "C:\\winutils-master\\hadoop-2.6.3") val conf = new SparkConf().setMaster("local").setAppName("SecondarySort") val context = SparkSession.builder().config(conf).getOrCreate().sparkContext val rdd = context.textFile("C:\\Users\\IdeaProjects\\spark_learning\\test.txt") val step1 = rdd.map(line => line.split(",")) .map(line => ((line(0) + "-" + line(1), line(3).toInt), line(3).toInt)) val step2 = step1.repartitionAndSortWithinPartitions(new SecondarySortPartitioner(4)) .map { case (k, v: Int) => (k._1, v.toString) }.reduceByKey((x, y) => x + "," + y) step2.foreach(println) } } CommonFriends (chapter 8) data 100,200 300 400 500 600 200,100 300 400 300,100 200 400 500 400,100 200 300 500,100 300 600,100 code import org.apache.spark.{HashPartitioner, SparkConf} import org.apache.spark.sql.SparkSession import scala.collection.mutable.ArrayBuffer object CommonFriends { def main(args: Array[String]): Unit = { System.setProperty("hadoop.home.dir", "C:\\winutils-master\\hadoop-2.6.3") val conf = new SparkConf().setMaster("local").setAppName("CommonFriends") val spark = SparkSession.builder().config(conf).getOrCreate() import spark.implicits._ val context = SparkSession.builder().config(conf).getOrCreate().sparkContext val rdd = context
- 116B
数据算法 Hadoop Spark大数据处理技巧
2018-11-12百度云下载链接
- 160.94MB
数据算法: Hadoop+Spark大数据处理技巧.pdf
2018-06-08数据算法: Hadoop+Spark大数据处理技巧,pdf,高清,带书签,下载下来解压即可
- 204.26MB
数据算法Hadoop/Spark大数据处理技巧 源代码
2018-05-11数据算法Hadoop/Spark大数据处理技巧 源代码 内有部分数据集
- 162.10MB
数据算法 Hadoop Spark大数据处理技巧 中文PDF
2018-09-26《数据算法:Hadoop/Spark大数据处理技巧》介绍了很多基本设计模式、优化技术和数据挖掘及机器学习解决方案,以解决生物信息学、基因组学、统计和社交网络分析等领域的很多问题。这还概要介绍了MapReduce、Hadoop和Spark。
- 59.0MB
数据算法 Hadoop Spark大数据处理技巧(1/3)
2017-10-19中文版,一共3卷,第1卷。了解spark技术内幕 了解spark技术内幕
- 100.37MB
数据算法-Hadoop Spark大数据处理技巧
2019-01-03数据算法-Hadoop Spark大数据处理技巧 1.
- 48B
数据算法 Hadoop_Spark大数据处理技巧(网盘链接和密码) ,马哈默德·帕瑞斯安 ,P680 ,2016.10.txt
2017-10-16数据算法 Hadoop_Spark大数据处理技巧(网盘链接和密码) ,马哈默德·帕瑞斯安 ,P680 ,2016.10
- 1.6MB
数据算法 HadoopSpark大数据处理技巧.pptx
2023-10-04数据算法 HadoopSpark大数据处理技巧.pptx
- 36.22MB
Hadoop-Spark大数据处理技巧.pdf
2017-12-06大数据的目的是使用某种方法解决具体的问题,这本书指出了在大数据处理过程中的技巧话问题
- 34.33MB
hadoop_spark_数据算法
2017-11-16hadoop_spark_数据算法hadoop_spark_数据算法hadoop_spark_数据算法hadoop_spark_数据算法
- 43.26MB
数据算法 Hadoop Spark大数据处理技巧(3/3)
2017-10-19中文版,一共3卷,第3卷。了解spark技术内幕 了解spark技术内幕
- 71.54MB
数据算法:Hadoop+Spark大数据 中文版
2017-12-06数据算法:Hadoop+Spark大数据 中文版 高清版 良心资源
- 49B
《Hadoop/Spark大数据处理技巧》(完美书签/完整版200M)
2018-02-26大数据处理必看必会的书籍,本资源完美高清带书签,非常适合学习
- 71.83MB
数据算法:Hadoop/Spark大数据处理技巧
2018-12-12数据算法:Hadoop/Spark大数据处理技巧
- 162.4MB
数据算法 Hadoop Spark大数据处理技巧.zip
2019-07-03学习大数据经典书籍。学习Hadoop最权威书籍。介绍Hadoop各项技术。
- 65.86MB
spark 数据算法 Hadoop/Spark大数据处理技巧(Data Algorithms)
2018-12-11spark 数据算法 Hadoop/Spark大数据处理技巧(Data Algorithms) ,算法详解电子书
- 72.75MB
数据算法 hadoop spark大数据处理技巧
2018-08-30《数据算法:Hadoop/Spark大数据处理技巧》介绍了很多基本设计模式、优化技术和数据挖掘及机器学习解决方案,以解决生物信息学、基因组学、统计和社交网络分析等领域的很多问题。这还概要介绍了MapReduce、Hadoop和...
- 148.67MB
Spark大数据处理:原理算法与实例
2018-12-05Spark大数据处理:原理算法与实例
- 144.73MB
Spark大数据处理_原理算法与实例
2018-08-24Spark最好的书之一; 第 1 章从 Hadoop 到 Spark 1. 1 Hadoop一一大数据时代的火种·· 1. 1. 1 大数据的由来 1. 1. 2 Google 解决大数据计算问题的方法 ……................…........... 5 1. 1. 3 Hadoop 的由来与发展………................. .. ......................…. 10 1. 2 Hadoop 的局限性·················…….........….........................……… 12 1. 2. 1 Hadoop 运行机制…….....….........…..................... . ....……. . 13 1. 2. 2 Hadoop 的性能问题……………………........ ......…..... . ...…… . 15 1. 2. 3 针对 Hadoop 的改进………………··························…....... 20 1. 3 大数据技术新星一-Spark …·…………………………………………….. 21 1. 3. 1 Spark 的出现与发展……........…………………... ......………. 21 1. 3. 2 Spark 协议族……………………………………………………… 24 1. 3. 3 Spark 的应用及优势……....... .…………………·· ·······………. 25 第 2 章体验 Spark ……….....……........…··························…………………28 2. 1 安装和使用 Spark ··············……..................………………………….28 2. 1. 1 安装 Spark ·································································· 28 2. 1. 2 了解 Spark 目录结构................ . .. .. ........... ................. .. . .. 31 2. 1. 3 使用 Spark Shell ·· · · · · · · · · ·· · · · · · · · · ······· ····· ··· · ··· · ···· · · · · ·· · · ··· ·· ·· 32 2.2 编写和运行 Spark 程序................................................ ...... ......... 35 2.2. 1 安装 Scala 插件 .... .. ............. ...... ....................... ............ 35 2.2.2 编写 Spark 程序......... ................. .................................. 37 2.2.3 运行 Spark 程序········ ············ · ··········· ·············· ········ ······ 42 2. 3 Spark Web UI ··························· ······························ ··············· 45 2.3. 1 访问实时 Web UI ························································· 45 2.3.2 从实时 UI 查看作业信息、....... .. .................. . ....... ............. 46IV 目录 第 3 章 Spark 原理……………………….................……………………………. 50 3. 1 Spark 工作原理…………………………….......…………………........… 50 3. 2 Spark 架构及运行机制………………….............……………………….. 54 3. 2. 1 Spark 系统架构与节点角色………………………........………. 54 3. 2. 2 Spark 作业执行过程……··…...............…......................... 57 3.2.3 应用初始化…·…………………………………………………….. 59 3.2.4 构建 RDD 有向无环图 ………........……………........……….. 62 3.2.5 RDD 有向无环图拆分……..................................………….. 64 3. 2. 6 Task 调度………………………………………………………...... 68 3. 2. 7 Task 执行…………………………………………………………… 71
- 2.4MB
Scala-升级版.docx
2021-10-14Scala快速入门(适合为学Spark学习Scala的同学)Word文档
- 2.90MB
基于spark的图书推荐系统
2023-06-15推荐系统是一种信息过滤系统,能够自动预测用户对特定产品或服务的偏好,并向其提供个性化的推荐。它通常基于用户的历史行为、个人喜好、兴趣和偏好等,通过数据挖掘和机器学习算法,在大数据的支持下生成个性化的推荐内容,从而提高用户购买率和满意度。推荐系统广泛应用于电子商务、社交媒体、新闻资讯、音乐、电影等领域。推荐系统的作用是根据用户的历史行为和偏好,为用户推荐个性化的内容,以满足用户的需求和兴趣。 在推荐系统架构中,离线计算部分主要使用 Hadoop、Spark、Hive 等大数据处理技术,将海量历史数据进行离线处理,构建出推荐模型。在线计算部分则使用 Flask、Django 或 Tornado 等 Web 应用框架,将推荐模型部署到 Web 服务器上,实现实时推荐服务。
- 19.13MB
高分毕业设计 基于Hadoop+Kafka+Spark大数据平台的新闻日志分析处理及可视化系统源码+部署文档+全部数据资料.
2024-04-23【资源说明】 高分毕业设计 基于Hadoop+Kafka+Spark大数据平台的新闻日志分析处理及可视化系统源码+部署文档+全部数据资料. 【备注】 1、该项目是高分毕业设计项目源码,已获导师指导认可通过,答辩评审分达到95分 2、该资源内项目代码都经过mac/window10/11/linux测试运行成功,功能ok的情况下才上传的,请放心下载使用! 3、本项目适合计算机相关专业(如软件工程、计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载使用,也可作为毕业设计、课程设计、作业、项目初期立项演示等,当然也适合小白学习进阶。 4、如果基础还行,可以在此代码基础上进行修改,以实现其他功能,也可直接用于毕设、课设、作业等。 欢迎下载,沟通交流,互相学习,共同进步!
- 743KB
大数据期末课设~基于spark的气象数据处理与分析
2022-12-14大数据期末课设~基于spark的气象数据处理与分析 完整版Word 可以拿来直接交作业
- 550KB
全国职业技能大赛大数据赛项十套赛题(shtd)
2023-01-16使用Scala编写spark工程代码,将MySQL的shtd_store库中表user_info、sku_info、base_province、base_region、order_info、order_detail的数据增量抽取到Hive的ods库中对应表user_info、sku_info、base_province、base_region、order_info、order_detail中。 1、 抽取shtd_store库中user_info的增量数据进入Hive的ods库中表user_info。根据ods.user_info表中operate_time或create_time作为增量字段(即MySQL中每条数据取这两个时间中较大的那个时间作为增量字段去和ods里的这两个字段中较大的时间进行比较),只将新增的数据抽入,字段名称、类型不变,同时添加静态分区,分区字段类型为String,且值为当前比赛日的前一天日期(分区字段格式为yyyyMMdd)。使用hive cli执行show partitions ods.user_info命令,将结果截图粘贴至对应报告中;
- 69B
大数据全套教程完整版
2019-01-09大数据基础到精通完整版, 涵盖技术点:python 基础 java基础,mysql,oracle,ssm框架,linux,hadoop,hbase,zookeeper,flume,scala,spark。资源宝贵,速度下载
- 26.74MB
全国2014-2018年空气质量csv数据集文件数据
2019-06-23全国2014-2018年空气质量csv数据集文件数据,包含字段time(时间),city(城市),AQI,PM2.5,PM10,SO2,NO2,CO,O3,primary_pollutant(主要污染物),共计55万条数据。
- 0B
spark-3.3.1-bin-3.0.0-cdh6.3.2.tgz
2022-11-23spark 3.3.1 使用 cdh 6.3.2 的hadoop版本。可以直接兼容并配合文档进行cdh spark-sql的使用。 具体查看https://editor.csdn.net/md/?articleId=127997188
- 1.1MB
Spark气象监测数据分析:代码整合,包括预处理,分析,数据可视化
2023-09-17【内容概要】 通过完整的气象监测数据处理与分析项目,了解Spark大数据分析的整体流程。代码涵盖数据工程、统计分析、机器学习预测建模等内容。可以学习如何使用Spark PySpark API处理大规模数据。 【适合人群】 具备一定Python编程基础,需要处理分析大规模数据的研发人员。 【能学到什么】 1. Spark数据处理:缺失值处理、降噪、特征工程等数据预处理技术 2. 统计分析:分组聚合、相关性分析、异常检测等统计方法 3. 机器学习:时间序列预测模型设计、集成学习提升效果 4. 微服务:模型API和Docker部署,提供后端服务 【学习建议】 项目代码完整覆盖了大数据分析全流程。在学习过程中,需要结合代码注释和文档,了解设计思路和背后的原理。同时调试并运行示例代码,加深理解。欢迎提出改进意见。