下载 >  大数据 >  spark > 大数据算法
1

大数据算法

总共两部分,要同时下载解压才有效,共32章,高清。

大数据算法是大数据得以有效应用的基础,也是有志于从事大数据以及相关领域工作必须学习的课程。本书由从事大数据研究的专家撰写,系统地介绍了大数据算法设计与分析的理论、方法和技术。本书共分为10章,第1章概述大数据算法,第2章介绍时间亚线性算法,第3章介绍空间亚线性算法,第4章概述外存算法,第5章介绍大数据外存查找结构,第6章讲授外存图数据算法,第7章概述MapReduce算法,第8章通过一系列例子讲授MapReduce算法,第9章介绍超越MapReduce的算法设计方法,第10章讨论众包算法。, 本书适合作为计算机科学、大数据等专业本科生、研究生教材,也可供从事大数据相关工作的工程技术人员参考。
2018-04-15 上传大小:60.95MB
分享
收藏 举报

评论 共1条

u013723680 别下载,找不到part1,下下来60多M没有什么用
2018-05-16
回复
大数据算法_王宏志

本书系统地介绍了大数据算法设计与分析的理论、方法和技术,针对大数据的特点,介绍了亚线性算法、外存算法、并行算法和众包算法。书中提供了大量关于大数据算法设计与分析的实例,旨在阐述大数据算法设计技术,有助于读者掌握相应的算法设计与分析方法。

立即下载
大数据算法》┊王宏志PDF

《大数据算法》┊王宏志著,高清完整PDF。仅供学习参考!

立即下载
大数据算法 (王宏志 编著) pdf下载

作者: 王宏志 出版社: 机械工业出版社 出版时间:2015-07-01 页数:237 丛书名: 大数据技术丛书 本书是国内系统介绍大数据算法设计与分析技术的教材,内容丰富,结构合理,旨在讲述和解决大数据处理和应用中相关算法设计与分析的理论和方法,切实培养读者设计、分析与应用算法解决大数据问题的能力。不仅适合计算机科学、软件工程、大数据、物联网等学科的本科生和研究生使用,而且可供其他相近学科的本科生和研究生使用。同时,该教材还可作为从事大数据相关领域工程技术人员的自学读物。

立即下载
大数据算法.王宏志(带详细书签)

介绍大数据上常见的算法设计思想,包括I/O敏感算法、并行算法和随机化算法,以及几个大数据比较热门的专题。这三类算法当前国内算法书籍中介绍比较少,并行算法和随机化算法尽管已经有相关书籍,但是并行算法的书籍往往和硬件联系比较密切,偏重于计算密集型算法而不是数据密集型算法;随机化算法也并非针对数据密集型计算提出的。 本书是国内第一本系统介绍大数据算法设计与分析技术的教材,内容丰富,结构合理,旨在讲述和解决大数据处理和应用中相关算法设计与分析的理论和方法,切实培养读者设计、分析与应用算法解决大数据问题的能力。不仅适合计算机科学、软件工程、大数据、物联网等学科的本科生和研究生使用,而且可供其他相近学科的本科生和研究生使用。同时,该教材还可作为从事大数据相关领域工程技术人员的自学读物。 本书特点: 前沿、实用的内容。总结了大数据算法设计与分析的新技术和新理念,梳理了当前大数据相关应用中所需要的算法设计与分析的方法。书中的部分内容代表了学术界最新的前沿技术,首次出现在国内外的教科书上。 清晰、严谨的叙述。针对大数据算法设计与分析中的主要方法,通过介绍原理、举例说明、算法分析等多个角度进行阐述,清晰地讲解算法设计方法,严谨地分析和证明算法的特性,有利于培养读者独立设计与分析大数据算法的能力。 新颖、宽泛的习题。习题部分来自领域内相关文献,部分来自大数据相关开发领域的实际问题,有利于培养读者解决问题的创新思维。 “大数据”在今天成为一个非常时尚的概念,其影响已经远远超过了计算机学科本身,甚至影响到了自然科学、社会科学、人文科学等。由于其深远的影响和广泛的应用,大数据一直得到IT从业人员的重视,他们对大数据相关理论、技术的学习有着强烈的需求。 “算法设计与分析”是计算机科学的重要主题,进行大数据计算,“算法设计与分析”是必不可少的步骤,可以说,算法设计是“大数据落地”的关键之一。然而,虽然在今天的书店里,关于大数据的书籍数不胜数,但真正从“算法设计与分析”角度关注大数据的书却很少。究其原因,当前“大数据算法”的知识体系还远不完备,因为“大数据”是计算机学科的增长点之一,“大数据算法”的内涵和外延也不断发生着变化,而且大数据上算法设计与分析得到的知识驳杂,难以梳理出一个明晰的知识体系。而大数据不同方面的从业人员,对“大数据算法”的理解也不尽相同。作者曾经调研过国内外和“大数据算法”相关的课程,其教学内容的差异非常大。 因而,笔者写了本书,作为一种勇敢的尝试,试图兼顾深度和广度来介绍“大数据算法”。其缘起有三。 其一,笔者从本科加入了李建中教授领导的哈尔滨工业大学数据库研究中心,留校工作到现在。随着“数据”在计算机学科扮演的角色日益重要,中心的名字经历了“数据库研究中心”到“知识与数据工程研究中心”到“海量数据计算研究中心”到“国际大数据研究中心”的变化,并且一直是围绕“数据”的计算开展研究。在中心良好的学术氛围下,笔者进行了十几年“数据”计算的研究,也一直在思考“数据为中心的计算到底需要何种特别的算法设计技术”这一问题,有一些不成熟的心得,希望与读者分享。 其二,机械工业出版社王彬编辑在2013年全国大数据会议上邀请笔者写一本和“大数据”、“算法”相关的书,促使笔者去思考和学习,试图梳理出一条“大数据算法”的脉络。 其三,在网易云课堂的孙志岗总监的鼓动下,笔者在2014年开设了自己的第一门MOOC课程“大数据算法”,2014年夏季学期笔者在哈尔滨工业大学作为全校选修课也开设了“大数据算法”这门课程,这督促着笔者不得不从教学内容到教学方法上去思考如何表述“大数据算法”。在教学过程中,很多学习这门课程的学生询问教材的事情,很遗憾,笔者只能提供一个参考文献列表,而无法推荐教材,这也促使笔者撰写这样一本书。

立即下载
大数据算法-哈尔滨工业大学-王宏志

大数据算法-哈尔滨工业大学-王宏志 全套课件 大数据算法-哈尔滨工业大学-王宏志 全套课件 大数据算法-哈尔滨工业大学-王宏志 全套课件

立即下载
大数据算法视频课程+课件

大数据在不论在研究还是工程领域都是热点之一,算法是大数据管理与计算的核心主题。本课程试图简要介绍大数据计算中涉及到的基本算法设计方法。适用于大数据研究与开发人员,也适用于数据科学爱好者。 大数据算法这门课程旨在通过讲授一些大数据上基本算法设计思想,包括概率算法、I/O有效算法和并行算法,让听课的同学们接触到和传统算法课程不一样的算法设计与分析思路,并且以最新的研究成果为导向,让参与这门课程学习的同学了解大数据算法的前沿知识。通过这门课程的学习,同学可以掌握大数据算法设计的基本思想,掌握大数据算法设计与分析的技术。 【课程目录】 第1章 大数据算法概述 大数据的定义与特点 大数据算法 大数据算法设计与分析 第2章 亚线性算法概述 亚线性算法的定义 水库抽样—空间亚线性算法 平面图直径—时间亚线性计算算法 全0数组判定—时间亚线性判定算法 第3章 亚线性算法例析 数据流中频繁元素 最小生成树 序列有序的判定 第4章 外存算法概述 外存存储结构与外存算法 外存算法示例:外存排序算法 外存数据结构示例:外存查找树 第5章 外存查找结构 B树 KD树 第6章 外存图数据算法 表排序及其应用 时间前向处理方法 缩图法 第7章 基于MapReduce的并行算法设计 MapReduce概述 字数统计 平均数计算 单词共现矩阵的计算 第8章 MapReduce算法例析 连接(Join)算法 图算法 第9章 非MapReduce的并行算法设计 基于迭代处理平台的并行算法 基于图处理平台的并行算法 第10章 众包算法 众包的定义 众包的实例 众包的要素 众包算法例析

立即下载
大数据算法 王宏志

大数据算法 王宏志 系统地介绍了大数据算法设计与分析的理论、方法和技术,针对大数据的特点,介绍了亚线性算法、外存算法、并行算法和众包算法

立即下载
零基础学大数据算法-简版电子书.pdf

零基础学大数据算法-简版电子书.pdf

立即下载
一句话,大数据算法【更新ing】
算法(普通算法+大数据)
清华大学大数据算法基础课程

清华大学大数据算法

立即下载
大数据经典算法Apriori讲解

寻找最大项目集的基本思想是: 算法需要对数据集进行多步处理.第一步,简单统计所有含一个元素项目集出现的频率,并找出那些不小于最小支持度的项目集, 即一维最大项目集L1. 从第二步开始循环处理直到再没有最大项目集生成

立即下载
大数据经典算法

大数据和数据挖掘常用的经典算法,本文档为英文文档,描述原版的算法

立即下载
大数据算法大全

涉及数学相关的一些算法模型,特别适用于学习大数据算法的同学们

立即下载
SVM大数据算法

多维空间分类 大数据十大经典算法之一的SVM算法 很好的讲解PPT

立即下载
人工智能大数据算法图解

大数据,算法详细解读,人工智能基础内容,本书适合任何具备编程基础并想理解算法的人阅读。你可能面临一个编程问题,需要找一种 算法来实现解决方案,抑或你想知道哪些算法比较有用。下面列出了可能从本书获得很多帮助的 部分读者

立即下载
前海征信“海信杯”大数据算法大赛(数据)

作为平安旗下专业第三方商业征信机构,前海征信有着丰富的数据资源。 本次赛事中主办方前海征信开放业务数据,设计国内首个迁移学习赛题:参赛选手需依据给定的4万条业务A数据及4千条业务B数据,建立业务B的信用评分模型。其中业务A为信用贷款, 其特征是债务人无需提供抵押品,仅凭自己的信誉取得贷款,并以借款人信用程度作为还款保证;业务B为现金贷,即发薪日贷款(payday loan),与一般的消费金融产品相比,现金贷主要具有以下五个特点:额度小、周期短、无抵押、流程快、利率高,这也是与其借贷门槛低的特征相适应的。 由于业务A、B存在关联性,选手如何将业务A的知识迁移到业务B,以此增强业务B的信用评分模型,是本次比赛考察的重点

立即下载
大数据算法概述

如果你对大数据算法很感兴趣却又不知如何下手学习,你可以看看这篇ppt,概述了机器学习的几大经典算法,值得一试

立即下载
《 大数据量级的数据处理算法》PDF

《 大数据量级的数据处理算法》PDF。 。

立即下载
大数据时代的算法 机器学习、人工智能及其典型实例-刘凡平

本书介绍在互联网行业中经常涉及的算法,包括排序算法、查找算法、资源分配算法、路径分析算法、相似度分析算法,以及与机器学习相关的算法,包括数据分类算法、聚类算法、预测与估算算法、决策算法、关联规则分析算法及推荐算法。本书涉及的相关算法均为解决实际问题中的主流算法,对于工作和学习都有实际参考意义。本书是一本算法领域内的技术参考书籍,涵盖数十种算法,通过由浅入深的介绍基础算法和机器学习算法相关理论和应用,阐述了各个算法的应用场景及算法复杂度,使读者对算法的理解不只是停留在表面,还从应用的角度提供了大量实例,使读者能够快速、高效进阶各类算法,并能够熟练应用到将来的工作实践中。 第1章 算法基础 1 1.1 基础算法分析类型 1 1.1.1 分治法 1 1.1.2 动态规划法 2 1.1.3 回溯法 3 1.1.4 分支限界法 4 1.1.5 贪心法 4 1.2 算法性能分析 5 1.3 概率论与数理统计基础 6 1.4 距离计算 8 1.4.1 欧氏距离 8 1.4.2 马氏距离 9 1.4.3 曼哈顿距离 9 1.4.4 切比雪夫距离 9 1.4.5 闵氏距离 9 1.4.6 海明距离 10 1.5 排 序算法 10 1.5.1 快速排序 11 1.5.2 归并排序 11 1.5.3 堆排序 13 1.5.4 基数排序 15 1.5.5 外排序 16 1.6 字符压缩编码 17 1.6.1 哈夫曼编码 17 1.6.2 香农-范诺编码 21 1.7 本章小结 24 第2章 数据查找与资源分配算法 25 2.1 数值查找算法 25 2.1.1 二分搜索算法 25 2.1.2 分块查找 27 2.1.3 哈希查找 28 2.2 字符串查找算法 30 2.2.1 Knuth-Morris-Pratt算法 31 2.2.2 Boyer-Moore算法 34 2.2.3 Sunday算法 37 2.3 海量数据中的查找 39 2.3.1 基于布隆过滤器查找 39 2.3.2 倒排索引查找 41 2.4 银行家算法 43 2.5 背包问题 45 2.5.1 0-1背包问题 45 2.5.2 部分背包问题 47 2.6 本章小结 47 第3章 路径分析算法 49 3.1 基于Dijkstra算法的路径分析 49 3.1.1 应用示例:极地探险 49 3.1.2 基于Dijkstra的最短路径规划 50 3.2 基于Floyd算法的路径分析 53 3.2.1 应用示例:任意两个城市之间的最短路径 53 3.2.2 Floyd原理 54 3.2.3 基于Floyd算法计算两个城市最短距离 56 3.3 基于A*算法的路径搜索 58 3.3.1 应用实例:绕过障碍区到达目的地 58 3.3.2 A*算法与最短距离计算 59 3.4 基于维特比算法的概率路径 61 3.4.1 应用实例:推断天气状态 61 3.4.2 维特比算法思想 62 3.4.3 计算天气状态 62 3.5 最长公共子序列问题 64 3.5.1 概要 64 3.5.2 最长公共子串 64 3.5.3 最长公共子序列原理 66 3.5.4 实例:求两字符串的最长公共子序列 66 3.6 本章小结 68 第4章 相似度分析算法 69 4.1 应用实例:海量网页相似度分析 69 4.2 基于Jaccard相似系数的相似度计算 70 4.2.1 计算流程 70 4.2.2 狭义Jaccard相似系数 71 4.2.3 广义Jaccard相似系数 71 4.3 基于MinHash的相似性算法 71 4.3.1 与Jaccard相似性关系 71 4.3.2 计算网页文本相似性过程 72 4.4 向量空间模型 73 4.4.1 词袋模型 73 4.4.2 TF-IDF算法 74 4.5 基于余弦相似性算法的相似度分析 76 4.5.1 原理基础 76 4.5.2 公式解析 77 4.5.3 计算网页文本相似性过程 77 4.6 基于语义主题模型的相似度算法 78 4.7 基于SimHash算法的指纹码 80 4.7.1 SimHash引入 81 4.7.2 SimHash的计算流程 81 4.7.3 计算重复信息 83 4.8 相似度算法的差异性 84 4.9 本章小结 85 第5章 数据分类算法 86 5.1 基于朴素贝叶斯分类器 86 5.1.1 有监督分类与无监督分类 87 5.1.2 应用实例:识别车厘子与樱桃 88 5.1.3 分类流程归纳 91 5.1.4 应用扩展:垃圾邮件识别 92 5.1.5 常用评价指标 96 5.2 基于AdaBoost分类器 100 5.2.1 AdaBoost概述 100 5.2.2 AdaBoost算法具体流程 101 5.2.3 AdaBoost算法的应用实例 102 5.2.4 AdaBoost算法的优点 105 5.3 基于支持向量机的分类器 105 5.3.1 线性可分与线性不可分 106 5.3.2 感知器 107 5.3.3 支持向量机 108 5.4 基于K邻近算法的分类器 109 5.4.1 应用实例:电影观众兴趣发现 109 5.4.2 核心思想 109 5.4.3 电影观众兴趣发现 110 5.5 本章小结 113 第6章 数据聚类算法 115 6.1 采用系统聚类法 115 6.1.1 概述 116 6.1.2 最短距离法 117 6.1.3 重心聚类法 119 6.1.4 动态聚类法 120 6.2 基于K-Means聚类算法 122 6.2.1 应用实例:新闻聚类 122 6.2.2 逻辑流程 123 6.2.3 实现新闻聚类分析 124 6.2.4 K-Means++ 128 6.2.5 K-中心点聚类算法 129 6.2.6 ISODATA聚类算法 130 6.3 基于密度的DBSCAN算法 131 6.4 基于BIRCH算法的聚类分析 133 6.4.1 聚类特征 133 6.4.2 聚类特征树 134 6.5 聚类与分类差异 135 6.6 本章小结 136 第7章 数据预测与估算算法 137 7.1 产生式模型与判别式模型 137 7.2 基于最大似然估计的预测 138 7.3 基于线性回归的估算 140 7.3.1 概要 140 7.3.2 最小二乘法 141 7.4 基于最大期望算法分析 143 7.5 基于隐马尔科夫模型预测 144 7.5.1 应用实例:高温天气与行为概率 144 7.5.2 原理分析 145 7.5.3 高温天气与行为概率 147 7.6 基于条件随机场的序列预测 151 7.6.1 应用实例 151 7.6.2 原理分析 151 7.6.3 条件随机场的优缺点 153 7.7 本章小结 154 第8章 数据决策分析算法 155 8.1 基于ID3算法的决策分析 156 8.1.1 信息量 156 8.1.2 信息熵 156 8.1.3 信息增益 157 8.1.4 ID3算法流程 157 8.1.5 ID3算法的应用 157 8.2 基于C4.5算法的分类决策树 159 8.2.1 概要 159 8.2.1 应用实例 159 8.3 基于分类回归树的决策划分 161 8.3.1 概要 162 8.3.2 应用实例:决策划分 163 8.3.2 剪枝 164 8.4 基于随机森林的决策分类 168 8.4.1 随机森林的特点 169 8.4.2 随机森林的构造方法 169 8.4.3 应用实例:决定车厘子的售价层次 170 8.5 本章小结 172 第9章 数据关联规则分析算法 174 9.1 基于Apriori算法的关联项分析 174 9.1.1 应用实例:超市的货架摆放问题 175 9.1.2 基本概要 175 9.1.3 算法原理 176 9.1.4 有效摆放货架 176 9.2 基于FP-Growth算法的关联性分析 179 9.2.1 构建FP树 179 9.2.2 频繁项分析 181 9.2.3 与Apripri算法比较 184 9.3 基于Eclat算法的频繁项集挖掘 184 9.4 本章小结 185 第10章 数据与推荐算法 187 10.1 概要 187 10.1.1 推荐算法发展 188 10.1.2 协同过滤推荐 189 10.2 基于Item-Based协同过滤推荐 190 10.2.1 Item-Based基本思想 190 10.2.2 Slope One实例:基于评分推荐 190 10.3 基于User-Based协同过滤推荐 193 10.3.1 应用实例:根据人群的推荐 194 10.3.2 User-Based与Item-Based对比 197 10.4 基于潜在因子算法的推荐 198 10.4.1 应用实例:新闻推荐 198 10.4.2 流行度与推荐 200 10.5 推荐算法与效果评价 201 10.6 本章小结 203

立即下载
关闭
img

spring mvc+mybatis+mysql+maven+bootstrap 整合实现增删查改简单实例.zip

资源所需积分/C币 当前拥有积分 当前拥有C币
5 0 0
点击完成任务获取下载码
输入下载码
为了良好体验,不建议使用迅雷下载
img

大数据算法

会员到期时间: 剩余下载个数: 剩余C币: 剩余积分:0
为了良好体验,不建议使用迅雷下载
VIP下载
您今日下载次数已达上限(为了良好下载体验及使用,每位用户24小时之内最多可下载20个资源)

积分不足!

资源所需积分/C币 当前拥有积分
您可以选择
开通VIP
4000万
程序员的必选
600万
绿色安全资源
现在开通
立省522元
或者
购买C币兑换积分 C币抽奖
img

资源所需积分/C币 当前拥有积分 当前拥有C币
5 4 45
为了良好体验,不建议使用迅雷下载
确认下载
img

资源所需积分/C币 当前拥有积分 当前拥有C币
5 0 0
为了良好体验,不建议使用迅雷下载
VIP和C币套餐优惠
img

资源所需积分/C币 当前拥有积分 当前拥有C币
5 4 45
您的积分不足,将扣除 10 C币
为了良好体验,不建议使用迅雷下载
确认下载
下载
您还未下载过该资源
无法举报自己的资源

兑换成功

你当前的下载分为234开始下载资源
你还不是VIP会员
开通VIP会员权限,免积分下载
立即开通

你下载资源过于频繁,请输入验证码

您因违反CSDN下载频道规则而被锁定帐户,如有疑问,请联络:webmaster@csdn.net!

举报

若举报审核通过,可返还被扣除的积分

  • 举报人:
  • 被举报人:
  • *类型:
    • *投诉人姓名:
    • *投诉人联系方式:
    • *版权证明:
  • *详细原因: