Python数据挖掘与机器学习实战
电子书推荐
-
机器学习与数据科学 基于R的统计学习方法 中文[美]Daniel D. Gutierrez 评分:
编辑推荐 从业者使用的工具是决定他的工作能否成功的重要因素之一。本书为数据科学家提供了一些在统计学习领域会用到的工具和技巧,为他们在数据科学领域的长期职业生涯提供了所需的一套基本工具。针对处理重要的数据科学问题的高级技能,本书也给出了学习的建议。本书包括以下内容:机器学习概述 监督机器学习数据连接 非监督机器学习数据处理 模型评估探索性数据分析本书选用R统计环境。R在全世界范围内应用越来越广泛,很多数据科学家只使用R就能进行项目工作。本书的所有代码示例都是用R语言写的。除此之外,书中还使用了很多流行的R包和数据集。 内容提要 当前,机器学习和数据科学都是很重要和热门的相关学科,需要深入地研究学习才能精通。本书试图指导读者掌握如何完成涉及机器学习的数据科学项目。本书将为数据科学家提供一些在统计学习领域会用到的工具和技巧,涉及数据连接、数据处理、探索性数据分析、监督机器学习、非监督机器学习和模型评估。本书选用的是R统计环境,书中所有代码示例都是用R语言编写的,涉及众多流行的R包和数据集。本书适合数据科学家、数据分析师、软件开发者以及需要了解数据科学和机器学习方法的科研人员阅读参考。 目录 章 机器学习综述1 1.1 机器学习的分类 2 1.2 机器学习的实际案例 3 1.2.1 预测回头客挑战赛 4 1.2.2 Netflix公司 5 1.2.3 算法交易挑战赛 6 1.2.4 Heritage健康奖 7 1.3 机器学习的过程 10 1.4 机器学习背后的数学 15 1.5 成为一名数据科学家 16 1.6 统计计算的R工程 18 1.7 RStudio 19 1.8 使用R包 20 1.9 数据集 22 1.10 在生产中使用R 23 1.11 小结 24 第2章 连接数据 25 2.1 管理你的工作目录 27 2.2 数据文件的种类 28 2.3 数据的来源 28 2.4 从网络中下载数据集 29 2.5 读取CSV文件 31 2.6 读取Excel文件 33 2.7 使用文件连接 34 2.8 读取JSON文件 35 2.9 从网站中抓取数据 36 2.10 SQL数据库 38 2.11 R中的SQL等价表述 42 2.12 读取Twitter数据 46 2.13 从谷歌分析中读取数据 48 2.14 写数据 51 2.15 小结 53 第3章 数据处理 54 3.1 特征工程 57 3.2 数据管道 59 3.3 数据采样 60 3.4 修正变量名 60 3.5 创建新变量 62 3.6 数值离散化 63 3.7 日期处理 65 3.8 将类变量二值化 67 3.9 合并数据集 68 3.10 排列数据集 70 3.11 重塑数据集 71 3.12 使用dplyr进行数据操作 72 3.13 处理缺失数据 75 3.14 特征缩放 77 3.15 降维 78 3.16 小结 81 第4章 探索性数据分析 83 4.1 数据统计 84 4.2 探索性可视化 87 4.3 直方图 88 4.4 箱形图 89 4.5 条形图 92 4.6 密度图 93 4.7 散点图 95 4.8 图 101 4.9 热图 102 4.10 缺失值的图表 103 4.11 解释性图表 104 4.12 小结 106 第5章 回归 107 5.1 一元线性回归 108 5.2 多元线性回归 120 5.3 多项式回归 127 5.4 小结 134 第6章 分类 136 6.1 一个简单的例子 137 6.2 逻辑回归 139 6.3 分类树 143 6.4 朴素贝叶斯 147 6.5 K-近邻 151 6.6 支持向量机 155 6.7 神经网络 159 6.8 集成 165 6.9 森林 168 6.10 梯度提升机 171 6.11 小结 174 第7章 评估模型性能 176 7.1 过拟合 177 7.2 偏差和方差 183 7.3 干扰因子 187 7.4 数据泄漏 188 7.5 测定回归性能 190 7.6 测定分类性能 194 7.7 交叉验证 197 7.8 其他机器学习诊断法 204 7.8.1 获取更多的训练观测数据 205 7.8.2 特征降维 205 7.8.3 添加新特征 205 7.8.4 添加多项式特征 206 7.8.5 对正则化参数进行微调 206 7.9 小结 206 第8章 非监督学习 208 8.1 聚类 209 8.2 模拟聚类 211 8.3 分级聚类 212 8.4 K-均值聚类 219 8.5 主成分分析 224 8.6 小结 233 术语表 234 Daniel D. Gutierrez是一位在职的数据科学家,就职于加州Santa Monica的咨询公司AMULET Analytics。为了紧跟行业的潮流,Daniel也是insideBIGDATA.的执行编辑。同时,他也是一位教师,为大学和大型公司开设了数据科学、机器学习和R方面的课程。Deniel本科毕业于UCLA,专业是数学和计算机科学。
上传时间:2018-03 大小:10.9MB
- 3KB
Gonzales-Gutierrez.rar_it
2022-09-24It s a type of codification or voice.
- 1.55MB
2018最具影响力的20篇数据科学论文
2019-02-22Daniel Gutierrez列出了2018年最具影响力的20篇数据科学研究论文清单,所有数据科学家都 应该认真回顾
- 16.15MB
Pro Spring Boot(Apress,2016)
2016-05-28This book is written by Felipe Gutierrez, a Spring expert consultant who works with Pivotal, the company behind the popular Spring Framework. Spring Boot makes it easy to create stand-alone, ...
- 6.25MB
Apress.Spring.Boot.Messaging
2019-04-29This book has description how to handle message and what is best practice.
- 182.90MB
matlab代码保密-deepcassi:[SIGGRAPHAsia2017]使用光谱先验技术进行高质量的高光谱重建
2021-05-22Kim访问我们的项目,获取高光谱图像数据集。 如果您使用本网站中的任何免费材料,请引用我们的论文: Bibtex:@Article {DeepCASSI:SIGA:2017, 作者= {Inchang Choi和Daniel S. Jeon和Giljoo Nam 以及迭戈·...
- 4.22MB
pro-spring-boot-2:Felipe Gutierrez的Pro Spring Boot 2源代码
2021-05-26该存储库随附Felipe Gutierrez的 (Apress,2019)。 使用绿色按钮将文件下载为zip格式,或使用Git将存储库克隆到您的计算机上。 发行版 版本v1.0对应于已出版书籍中的代码,没有更正或更新。 会费 请参阅文件...
- 4KB
Autonomous Data Density Based Clustering Algorithm:基于自治数据密度的聚类算法(ADD)的源代码。-matlab开发
2021-05-29Sanchis,“基于自治数据密度的聚类方法”,2016 年国际神经网络联合会议 (IJCNN),不列颠哥伦比亚省温哥华,2016 年,第 2405 页-2413。 [2] X.顾,“自组织透明学习系统”,博士论文,兰卡斯特大学,2018年。 该...
- 4.88MB
IEEE Std 802.15.4™-2003
2009-05-20John R. Barr, Task Group 3 Chair Patrick W. Kinney, Task Group 4 Chair Phil Jamieson, Task Group 4 Vice Chair José A. Gutierrez, Task Group 4 Editor-in-Chief Marco Naeve, Task Group 4 Secretary ...
- 2.66MB
Curriculum-Jesus-Gutierrez-M-main.zip
2021-02-16课程-Curriculum-Jesus-Gutierrez-M-main.zip
- 480KB
mxc_vpu_test.zip
2020-07-14这是在飞思卡尔官方vpu代码上修改的能过实现usb摄像头的采集和视频编解码 这是在飞思卡尔官方vpu代码上修改的能过实现usb摄像头的采集和视频编解码
- 8KB
Hankel 变换:执行 QDHT 的例行程序,对数据大小或变换顺序没有限制(内存限制除外)-matlab开发
2021-05-31该文件包含 2 个函数: bessel_zeros - 找到贝塞尔函数的零点hankel_matrix - 生成用于 Hankel 变换的数据结构 该算法取自: M. Guizar-Sicairos 和 JC Gutierrez-Vega,用于传播光波场的整数阶准离散 Hankel 变换的...
- 14.3MB
Millimeter Wave Mobile Communications for 5G Cellular: It Will Work!
2019-08-08Sun, R. Mayzus, H. Zhao, Y. Azar, K. Wang, G. N. Wong, J. K. Schulz, M. Samimi, and F. Gutierrez, "Millimeter Wave Mobile Communications for 5G Cellular: It Will Work!," IEEE Access, vol. 1; 1, pp. ...
- 48.37MB
americasnlp2021
2021-05-04AmericasNLP 2021在开放式机器翻译上的共同任务这是的官方资料库。 所有脚本均已使用Python 3.8.5进行了测试,并且要求也会相应更新。 可以在pilot_data/找到共享任务格式的数据示例, evaluate.py是将用于提交的MT...
- 47.74MB
Excess_MXC_NYC:MX City和NY City的死亡人数过多
2021-05-03MartínLajous的手稿附带的数据和代码; 罗德里戈·韦塔(Rodrigo Huerta-Gutierrez); 约瑟夫·肯尼迪唐纳德·奥尔森(Donald R. 丹尼尔·温伯格(Daniel M.Weinberger)。 该分析比较了2020年3月至2020年8月在...
- 6.21MB
Gutierrez:安东尼·古铁雷斯的回购
2021-03-29古铁雷斯安东尼·古铁雷斯(Anthony Gutierrez)的回购。 您好,我叫安东尼。 我将使用此存储库练习使用R和分配作业Biol 551计算机建模,2021年Spring教授:西尔比格博士
- 16.13MB
Pro.Spring.Boot.1942270003
2016-06-08This book is written by Felipe Gutierrez, a Spring expert consultant who works with Pivotal, the company behind the popular Spring Framework. Spring Boot makes it easy to create stand-alone, ...
- 1KB
葡萄品质预测
2021-03-04数据由2000个观测值组成,输入变量基于理化检验 固定酸度挥发性酸度柠檬酸残留糖氯化物游离二氧化硫总二氧化硫密度pH值硫酸盐酒精\ 资源 预测序数变量的问题很有趣,因为有几种方法可以对其进行处理。 以下文章提供...
- 15KB
并行计算TEDA聚类算法:并行计算TEDA聚类算法的源代码-matlab开发
2021-05-29、Angelov PP、Gutierrez G.、Iglesias JA、Sanchis A. (2017) 用于高频流数据聚类的并行计算 TEDA。 见:Angelov P.、Manolopoulos Y.、Iliadis L.、Roy A.、Vellasco M.(编辑)大数据进展。 INNS 2016。智能系统...
- 7.21MB
Pro Spring
2007-06-01这是一本很好的spring书籍,书中的实例和讲解一定能给你带来新的收获。 这是英文完整版,在网上看到了不少的... 目前在网上还没有发现中文电子版,如果哪位有中文电子版,可以上传上来与大家共享,共同进步啦
- 4.85MB
ragutierrez:Robert Gutierrez的个人网站
2021-02-20ragutierrez.com 的个人网站。 将PHP文件与Twig模板引擎一起使用,以模仿准系统,最小的Web应用程序框架。
- 1.95MB
ChatGPT教程(终极版)最全整理
2023-05-16这是一篇动了某些人利益的良心教程。 这是一篇姗姗来迟的ChatGPT教程。 纯小白关于ChatGPT入门,你看我这篇文章就够了。 如果你已经用上了ChatGPT,更要恭喜你挖到宝藏,后面的高级技巧一定能让你有收获。 文章包含以下内容: 一、ChatGPT是啥?有什么用; 二、ChatGPT如何注册; 三、ChatGPT使用方法; 四、用ChatGPT搞钱; 五、高级技巧;
- 1.7MB
yolov8调用zed相机实现三维测距(版本一)
2024-04-16yolov8调用zed相机实现三维测距(版本一),具体内容见博客https://blog.csdn.net/qq_45077760?type=blog
- 58KB
博客中Kmeans以及FCM算法数据(免积分)
2023-05-16博客中Kmeans以及FCM算法的数据,包括IRIS鸢尾花数据集、Wine葡萄酒数据集、Seed小麦种子数据集、glass数据集、WDBD乳腺癌数据集,下载在直接存入项目文件夹即可,如果下载不了,可以私信我,看到后会及时回复。
- 1.25MB
hugging face的models-openai-clip-vit-large-patch14文件夹
2023-10-25用于无法访问hugging face并需要运行stable-diffusion-webui时使用
- 10KB
神经网络回归预测--气温数据集
2021-11-26神经网络回归预测--气温数据集
- 1.87MB
XGBoost+LightGBM+LSTM-光伏发电量预测
2022-12-24包含比赛代码、数据、训练后的神经网络模型等。 在分析光伏发电原理的基础上,论证了辐照度、光伏板工作温度等影响光伏输出功率的因素,通过实时监测的光伏板运行状态参数和气象参数建立预测模型,预估光伏电站瞬时发电量,根据光伏电站DCS系统提供的实际发电量数据进行对比分析,验证模型的实际应用价值。 1 数据探索与数据预处理 1.1 赛题回顾 1.2 数据探索性分析与异常值处理 1.3 相关性分析 2 特征工程 2.1 光伏发电领域特征 2.2 高阶环境特征 3 模型构建与调试 3.1 预测模型整体结构 3.2 基于LightGBM与XGBoost的构建与调试 3.3 基于LSTM的模型构建与调试 3.4 模型融合与总结 4 总结与展望 参考文献
- 2.20MB
Mathwork+Matlab+编程手册
2023-08-25Introduction to Programming with MATLAB ~ Vanderbilt University
- 321KB
Stable-Diffusion WEBUI 简体中文语言包(2023.05.30更新)
2023-05-30AI绘图,Stable-Diffusion WEBUI,本地化(简体中文)语言文件。 原始文件来自翻译插件,根据自己实际使用情况,增加和修改了一些翻译。 配合【双语插件】看上去要自然一点,内容还在继续完善中。 本次增加了一些翻译内容,特别是插件。 同时继续合并了其它翻译插件的内容。 最近文字提示修改得有点多啊。 请放入“你的SDWebUI项目位置/localizations/”中。 中文翻译部分删掉了不少括起来的英文原文,所以别直接选它用。 请配合【Bilingual Localization】插件使用,双语同时显示,效果最好。
- 407KB
时间序列预测模型实战案例(Xgboost)(Python)(机器学习)包括时间序列预测和时间序列分类,点击即可运行!
2023-09-25内容概要 资源包括三部分(时间序列预测部分和时间序列分类部分和所需的测试数据集全部包含在内) 在本次实战案例中,我们将使用Xgboost算法进行时间序列预测。Xgboost是一种强大的梯度提升树算法,适用于各种机器学习任务,它最初主要用于解决分类问题,在此基础上也可以应用于时间序列预测。 时间序列预测是通过分析过去的数据模式来预测未来的数值趋势。它在许多领域中都有广泛的应用,包括金融、天气预报、股票市场等。我们将使用Python编程语言来实现这个案例。 其中包括模型训练部分和保存部分,可以将模型保存到本地,一旦我们完成了模型的训练,我们可以使用它来进行预测。我们将选择合适的输入特征,并根据模型的预测结果来生成未来的数值序列。最后,我们会将预测结果与实际观测值进行对比,评估模型的准确性和性能。 适合人群:时间序列预测的学习者,机器学习的学习者, 能学到什么:本模型能够让你对机器学习和时间序列预测有一个清楚的了解,其中还包括数据分析部分和特征工程的代码操作 阅读建议:大家可以仔细阅读代码部分,其中包括每一步的注释帮助读者进行理解,其中涉及到的知识有数据分析部分和特征工程的代码操作。
- 1.3MB
亚博K210模型训练部署
2023-07-11亚博K210模型训练部署