白话大数据与机器学习
电子书推荐
-
大数据时代的算法 机器学习、人工智能及其典型实例-刘凡平 评分:
本书介绍在互联网行业中经常涉及的算法,包括排序算法、查找算法、资源分配算法、路径分析算法、相似度分析算法,以及与机器学习相关的算法,包括数据分类算法、聚类算法、预测与估算算法、决策算法、关联规则分析算法及推荐算法。本书涉及的相关算法均为解决实际问题中的主流算法,对于工作和学习都有实际参考意义。本书是一本算法领域内的技术参考书籍,涵盖数十种算法,通过由浅入深的介绍基础算法和机器学习算法相关理论和应用,阐述了各个算法的应用场景及算法复杂度,使读者对算法的理解不只是停留在表面,还从应用的角度提供了大量实例,使读者能够快速、高效进阶各类算法,并能够熟练应用到将来的工作实践中。 第1章 算法基础 1 1.1 基础算法分析类型 1 1.1.1 分治法 1 1.1.2 动态规划法 2 1.1.3 回溯法 3 1.1.4 分支限界法 4 1.1.5 贪心法 4 1.2 算法性能分析 5 1.3 概率论与数理统计基础 6 1.4 距离计算 8 1.4.1 欧氏距离 8 1.4.2 马氏距离 9 1.4.3 曼哈顿距离 9 1.4.4 切比雪夫距离 9 1.4.5 闵氏距离 9 1.4.6 海明距离 10 1.5 排 序算法 10 1.5.1 快速排序 11 1.5.2 归并排序 11 1.5.3 堆排序 13 1.5.4 基数排序 15 1.5.5 外排序 16 1.6 字符压缩编码 17 1.6.1 哈夫曼编码 17 1.6.2 香农-范诺编码 21 1.7 本章小结 24 第2章 数据查找与资源分配算法 25 2.1 数值查找算法 25 2.1.1 二分搜索算法 25 2.1.2 分块查找 27 2.1.3 哈希查找 28 2.2 字符串查找算法 30 2.2.1 Knuth-Morris-Pratt算法 31 2.2.2 Boyer-Moore算法 34 2.2.3 Sunday算法 37 2.3 海量数据中的查找 39 2.3.1 基于布隆过滤器查找 39 2.3.2 倒排索引查找 41 2.4 银行家算法 43 2.5 背包问题 45 2.5.1 0-1背包问题 45 2.5.2 部分背包问题 47 2.6 本章小结 47 第3章 路径分析算法 49 3.1 基于Dijkstra算法的路径分析 49 3.1.1 应用示例:极地探险 49 3.1.2 基于Dijkstra的最短路径规划 50 3.2 基于Floyd算法的路径分析 53 3.2.1 应用示例:任意两个城市之间的最短路径 53 3.2.2 Floyd原理 54 3.2.3 基于Floyd算法计算两个城市最短距离 56 3.3 基于A*算法的路径搜索 58 3.3.1 应用实例:绕过障碍区到达目的地 58 3.3.2 A*算法与最短距离计算 59 3.4 基于维特比算法的概率路径 61 3.4.1 应用实例:推断天气状态 61 3.4.2 维特比算法思想 62 3.4.3 计算天气状态 62 3.5 最长公共子序列问题 64 3.5.1 概要 64 3.5.2 最长公共子串 64 3.5.3 最长公共子序列原理 66 3.5.4 实例:求两字符串的最长公共子序列 66 3.6 本章小结 68 第4章 相似度分析算法 69 4.1 应用实例:海量网页相似度分析 69 4.2 基于Jaccard相似系数的相似度计算 70 4.2.1 计算流程 70 4.2.2 狭义Jaccard相似系数 71 4.2.3 广义Jaccard相似系数 71 4.3 基于MinHash的相似性算法 71 4.3.1 与Jaccard相似性关系 71 4.3.2 计算网页文本相似性过程 72 4.4 向量空间模型 73 4.4.1 词袋模型 73 4.4.2 TF-IDF算法 74 4.5 基于余弦相似性算法的相似度分析 76 4.5.1 原理基础 76 4.5.2 公式解析 77 4.5.3 计算网页文本相似性过程 77 4.6 基于语义主题模型的相似度算法 78 4.7 基于SimHash算法的指纹码 80 4.7.1 SimHash引入 81 4.7.2 SimHash的计算流程 81 4.7.3 计算重复信息 83 4.8 相似度算法的差异性 84 4.9 本章小结 85 第5章 数据分类算法 86 5.1 基于朴素贝叶斯分类器 86 5.1.1 有监督分类与无监督分类 87 5.1.2 应用实例:识别车厘子与樱桃 88 5.1.3 分类流程归纳 91 5.1.4 应用扩展:垃圾邮件识别 92 5.1.5 常用评价指标 96 5.2 基于AdaBoost分类器 100 5.2.1 AdaBoost概述 100 5.2.2 AdaBoost算法具体流程 101 5.2.3 AdaBoost算法的应用实例 102 5.2.4 AdaBoost算法的优点 105 5.3 基于支持向量机的分类器 105 5.3.1 线性可分与线性不可分 106 5.3.2 感知器 107 5.3.3 支持向量机 108 5.4 基于K邻近算法的分类器 109 5.4.1 应用实例:电影观众兴趣发现 109 5.4.2 核心思想 109 5.4.3 电影观众兴趣发现 110 5.5 本章小结 113 第6章 数据聚类算法 115 6.1 采用系统聚类法 115 6.1.1 概述 116 6.1.2 最短距离法 117 6.1.3 重心聚类法 119 6.1.4 动态聚类法 120 6.2 基于K-Means聚类算法 122 6.2.1 应用实例:新闻聚类 122 6.2.2 逻辑流程 123 6.2.3 实现新闻聚类分析 124 6.2.4 K-Means++ 128 6.2.5 K-中心点聚类算法 129 6.2.6 ISODATA聚类算法 130 6.3 基于密度的DBSCAN算法 131 6.4 基于BIRCH算法的聚类分析 133 6.4.1 聚类特征 133 6.4.2 聚类特征树 134 6.5 聚类与分类差异 135 6.6 本章小结 136 第7章 数据预测与估算算法 137 7.1 产生式模型与判别式模型 137 7.2 基于最大似然估计的预测 138 7.3 基于线性回归的估算 140 7.3.1 概要 140 7.3.2 最小二乘法 141 7.4 基于最大期望算法分析 143 7.5 基于隐马尔科夫模型预测 144 7.5.1 应用实例:高温天气与行为概率 144 7.5.2 原理分析 145 7.5.3 高温天气与行为概率 147 7.6 基于条件随机场的序列预测 151 7.6.1 应用实例 151 7.6.2 原理分析 151 7.6.3 条件随机场的优缺点 153 7.7 本章小结 154 第8章 数据决策分析算法 155 8.1 基于ID3算法的决策分析 156 8.1.1 信息量 156 8.1.2 信息熵 156 8.1.3 信息增益 157 8.1.4 ID3算法流程 157 8.1.5 ID3算法的应用 157 8.2 基于C4.5算法的分类决策树 159 8.2.1 概要 159 8.2.1 应用实例 159 8.3 基于分类回归树的决策划分 161 8.3.1 概要 162 8.3.2 应用实例:决策划分 163 8.3.2 剪枝 164 8.4 基于随机森林的决策分类 168 8.4.1 随机森林的特点 169 8.4.2 随机森林的构造方法 169 8.4.3 应用实例:决定车厘子的售价层次 170 8.5 本章小结 172 第9章 数据关联规则分析算法 174 9.1 基于Apriori算法的关联项分析 174 9.1.1 应用实例:超市的货架摆放问题 175 9.1.2 基本概要 175 9.1.3 算法原理 176 9.1.4 有效摆放货架 176 9.2 基于FP-Growth算法的关联性分析 179 9.2.1 构建FP树 179 9.2.2 频繁项分析 181 9.2.3 与Apripri算法比较 184 9.3 基于Eclat算法的频繁项集挖掘 184 9.4 本章小结 185 第10章 数据与推荐算法 187 10.1 概要 187 10.1.1 推荐算法发展 188 10.1.2 协同过滤推荐 189 10.2 基于Item-Based协同过滤推荐 190 10.2.1 Item-Based基本思想 190 10.2.2 Slope One实例:基于评分推荐 190 10.3 基于User-Based协同过滤推荐 193 10.3.1 应用实例:根据人群的推荐 194 10.3.2 User-Based与Item-Based对比 197 10.4 基于潜在因子算法的推荐 198 10.4.1 应用实例:新闻推荐 198 10.4.2 流行度与推荐 200 10.5 推荐算法与效果评价 201 10.6 本章小结 203
上传时间:2018-10 大小:34.06MB
- 3KB
大数据推荐算法之基于用户协同过滤推荐实例
2017-07-13大数据推荐算法之基于用户协同过滤推荐实例usercf,python版,用movielens数据作例子
- 148.67MB
Spark大数据处理:原理算法与实例
2018-12-05Spark大数据处理:原理算法与实例
- 1.17MB
大数据十大经典算法
2014-06-20大数据十大经典算法kNN讲解PPT,很详细哦!
- 2.85MB
大数据时代
2019-02-19列举了众多在公共卫生、商业服务领域大数据变革的例子。一旦“不再追求 精确度,不再追求因果关系,而是承认混杂性,探索相关关系”,“思维转变过来,数据就能被巧妙地用来激发新产品和新型服务”。数据正成为巨大...
- 322KB
采煤机滚筒装煤性能试验研究
2020-01-11采煤机滚筒装煤性能试验研究,孟凡平,杨寅威,为提高采煤机滚筒的装煤性能,研制了三种螺旋升角(18°、21°、24°)的采煤机滚筒。并在研制的滚筒装煤试验台上,以相同滚筒转速、
- 161KB
第十五届蓝桥杯大赛软件赛省赛-C/C++ 研究生组
2024-04-13第十五届蓝桥杯大赛软件赛省赛_C/C++ 研究生组
- 1.66MB
数学建模国赛:无人机遂行编队飞行中的纯方位无源定位分析
2023-07-29国家二等奖获奖论文。本文基于平面几何分析以及正弦定理建立了三角分区定位模型,针对发射与接收信号的 无人机的相对位置不同的问题,提出了分区控制算法,并结合三角形相似定理和控制变量的 思想,提出了互反馈方位调整模型。 对于问题一的第一小问,利用三角分区定位模型、以及分区控制算法对接收信号的无人 机进行定位,该定位模型适用于所有包含 FY00 在内的任意三架无人机发射信号进行定位的 情况,即编号为 FY00、FY01、FY0M(M∈{2,3,4,5,6,7,8,9})的无人机发射信号, 当队列中某架飞机 FY0N 接收到的方向信息为?、?、?(?、?、?的定义见符号说明),根 据各个区间的的无人机之间的平面几何关系,可以得到各个区域的无人机的位置信息的关于 (?、θ)的通解公式(见正文 5.1.2 公式(9)(10)(11)(12)),之后再利用分区控制 算法分别对各个区域对应的通解公式进行求解,即可得到队列中任意无人机的位置信息。
- 6.54MB
最值得收藏的 数据结构 全部知识点思维导图整理(王道考研), 附带经典题型整理.emmx
2021-03-27用mindmaster打开文件, 本文的思维导图根据王道的数据结构书本整理而来并标记出重点内容,包括了知识点和部分课后习题
- 4KB
利用SVM(支持向量机)进行图像分割/提取-MATLAB
2023-06-15利用SVM(支持向量机)进行图像分割/提取。对给定的图像进行分割,将图像中的需要的区域和背景区域进行区分,并生成相应的分割图像和边界图像。
- 22KB
VRPTW 的 Solomon 标准测试数据集
2023-11-27CVRP问题下的VRPTW变体的测试数据集,常用来测试验证算法性能
- 7KB
变分模态分解(VMD)代码
2022-03-26VMD算法的原matlab原代码 在代码中本人添加了详细的注释,看源代码期间配合本人发表的博客会实现VMD的快速入门
- 265KB
最新版Notepad++十六进制查看的插件x64HexEditor0.9.12
2023-09-27最新版Notepad++十六进制查看的插件
- 0B
origin2021下载免费分享
2022-11-14origin2021 下载途径:百度网盘、阿里云盘下载
- 4.66MB
《Spring Cloud Alibaba 从入门到实战》.pdf
2021-03-10《Spring Cloud Alibaba 从入门到实战》
- 2KB
单机与无穷大无限母线连接的系统的转子角度动力学的 MATLAB 代码
2024-04-22转子角度动力学是描述系统中转子转动运动的数学模型,通过该模型可以用来模拟和分析单机与无穷大无限母线连接的系统的转子角度动力学。通过建立转子角度动力学方程,可以模拟系统的运行情况,可以得到系统在不同工况下的转子角度响应曲线,分析系统的响应和稳定性,提高系统的性能和可靠性。
- 149KB
甲骨文卷积神经网络识别-RTL(甲骨文识别)
2024-04-13甲骨文识别 甲骨文卷积神经网络识别-RTL(
- 644.62MB
PSG 3D 三维测绘系统
2023-04-14裸眼三维测绘系统
- 31KB
自适应模糊PID控制器simulink仿真
2024-03-19在matlab下simulink环境中,实现自适应模糊PID控制器仿真设计。用户可以自行修改PID参数与模糊规则,调整出属于自己的控制系统。
- 11.28MB
数据资产管理实践白皮书6.0
2023-05-18来源:信通院云大所 信通院数据资产管理实践白皮书6.0》是一份深入探讨数据资产管理(DAM)的权威指南,为组织提供了一套全面的理论和实践框架。本白皮书由信通院专家团队撰写,内容涵盖了数据资产的定义、分类、管理流程以及在现代企业中的应用策略。 内容概要: 白皮书首先定义了数据资产的概念,阐释了其在企业中的价值和重要性。接着,详细介绍了数据资产的生命周期管理,包括数据的识别、分类、整合、质量控制、安全保护和价值实现等关键环节。此外,还探讨了数据资产管理的组织架构、技术工具和标准规范。 通过阅读本白皮书,读者将获得以下知识: 数据资产管理的核心原则和实践方法。 如何构建有效的数据资产管理体系,以支持企业的业务决策和运营效率。 数据资产评估、监测和优化的技术手段。 数据安全和合规性管理的最佳实践。 行业案例分析,了解不同企业如何通过数据资产管理提升竞争力。 面对数据资产管理挑战时的解决策略和建议。 《信通院数据资产管理实践白皮书6.0》是数据管理人员、IT专业人士、企业决策者以及对数据驱动决策感兴趣的学者和研究人员的宝贵资源,旨在帮助组织更好地理解和利用其数据资产,实现数据的最大价值
- 60KB
采用K-means聚类,实现多维矩阵的聚类,并进行可视化展示(matlab)
2019-03-05我的数据是115*64维的,需要进行聚类操作,于是自己动手进行了实验,运用的是matlab语言,最后选取部分进行可视化展示,效果还不错。(代码注释完整)
- 3.56MB
蜣螂优化算法(DBO)源代码+DBO原始Paper+23个经典测试函数
2023-04-28以蜣螂优化算法(Dung Beetle Optimizer,DBO)为例,测试函数为23个经典单目标测试函数,能直接运行,可二次开发。资源包括:23个经典单目标测试函数+DBO算法+DBO原始paper。
- 359KB
秋招面试python很全的八股文总结
2023-04-26亲身总结的python八股文适合秋招找算法、软件类工作的同学的面试经验
- 42.8MB
最全PyCharm 中文使用手册.pdf
2021-01-08最全PyCharm 中文使用手册,python环境编译器
- 1KB
SEIR 2(Matlab源码)
2020-04-12只有代码,只需要代码来这边只有代码,
- 53.40MB
全国5级行政区划数据(省市区县乡镇村).txt
2019-08-07全国五级行政区划数据(省市区县乡镇村),共计74万多条,有需要的请下载,记得关注、点赞哦!
- 1.34MB
永磁同步电机矢量控制+MTPV+MTPA算法(弱磁控制)仿真simulink模型
2021-08-17本文件包含永磁同步电机矢量控制+MTPV+MTPA算法(弱磁控制)仿真simulink模型及其说明文档,是日常工作中就用的东西,可以完全正常仿真,输出流畅。本文档不仅包括simulink模型和说明文档,适合初学者和日常工程技术人员使用。
- 1KB
matlab随机森林回归模型代码
2020-03-19matlab软件随机森林法回归模型代码,可直接matlab打开运行!精简版,包括数据导入、模型建立、误差计算、保存模型,绘制对比图的多个功能!
- 55.81MB
矩阵计算-中文版-Gene H. Golub-袁亚湘-人民邮电出版社.pdf
2019-07-18本书是数值计算领域的名著,系统介绍了矩阵计算的基本理论和方法。内容包括:矩阵乘法、矩阵分析、线性方程组、正交化和最小二乘法、特征值问题、Lanczos 方法、矩阵函数及专题讨论等。书中的许多算法都有现成的软件包实现,每节后附有习题,并有注释和大量参考文献。新版增加约四分之一内容,反映了近年来矩阵计算领域的飞速发展。
- 2KB
基于分时电价,采用改进粒子群算法,基于V2G的电动汽车充放电优化调度策略
2024-04-08基于分时电价,采用改进粒子群算法,基于V2G的电动汽车充放电优化调度策略
- 4.53MB
基于DWA的动态避障代码【MATLAB】实现
2022-09-11基于DWA的动态避障代码【MATLAB】实现