Python数据挖掘与机器学习实战
电子书推荐
-
机器学习与数据科学 基于R的统计学习方法 中文 评分:
从业者使用的工具是决定他的工作能否成功的重要因素之一。本书为数据科学家提供了一些在统计学习领域会用到的工具和技巧,为他们在数据科学领域的长期职业生涯提供了所需的一套基本工具。针对处理重要的数据科学问题的高级技能,本书也给出了学习的建议。本书包括以下内容:机器学习概述 监督机器学习数据连接 非监督机器学习数据处理 模型评估探索性数据分析本书选用R统计环境。R在全世界范围内应用越来越广泛,很多数据科学家只使用R就能进行项目工作。本书的所有代码示例都是用R语言写的。除此之外,书中还使用了很多流行的R包和数据集。 内容提要 当前,机器学习和数据科学都是很重要和热门的相关学科,需要深入地研究学习才能精通。本书试图指导读者掌握如何完成涉及机器学习的数据科学项目。本书将为数据科学家提供一些在统计学习领域会用到的工具和技巧,涉及数据连接、数据处理、探索性数据分析、监督机器学习、非监督机器学习和模型评估。本书选用的是R统计环境,书中所有代码示例都是用R语言编写的,涉及众多流行的R包和数据集。本书适合数据科学家、数据分析师、软件开发者以及需要了解数据科学和机器学习方法的科研人员阅读参考。 目录 章 机器学习综述1 1.1 机器学习的分类 2 1.2 机器学习 的实际案例 3 1.2.1 预测回头客挑战赛 4 1.2.2 Netflix公司 5 1.2.3 算法交易挑战赛 6 1.2.4 Heritage健康奖 7 1.3 机器学习的过程 10 1.4 机器学习背后的数学 15 1.5 成为一名数据科学家 16 1.6 统计计算的R工程 18 1.7 RStudio 19 1.8 使用R包 20 1.9 数据集 22 1.10 在生产中使用R 23 1.11 小结 24 第2章 连接数据 25 2.1 管理你的工作目录 27 2.2 数据文件的种类 28 2.3 数据的来源 28 2.4 从网络中下载数据集 29 2.5 读取CSV文件 31 2.6 读取Excel文件 33 2.7 使用文件连接 34 2.8 读取JSON文件 35 2.9 从网站中抓取数据 36 2.10 SQL数据库 38 2.11 R中的SQL等价表述 42 2.12 读取Twitter数据 46 2.13 从谷歌分析中读取数据 48 2.14 写数据 51 2.15 小结 53 第3章 数据处理 54 3.1 特征工程 57 3.2 数据管道 59 3.3 数据采样 60 3.4 修正变量名 60 3.5 创建新变量 62 3.6 数值离散化 63 3.7 日期处理 65 3.8 将类变量二值化 67 3.9 合并数据集 68 3.10 排列数据集 70 3.11 重塑数据集 71 3.12 使用dplyr进行数据操作 72 3.13 处理缺失数据 75 3.14 特征缩放 77 3.15 降维 78 3.16 小结 81 第4章 探索性数据分析 83 4.1 数据统计 84 4.2 探索性可视化 87 4.3 直方图 88 4.4 箱形图 89 4.5 条形图 92 4.6 密度图 93 4.7 散点图 95 4.8 图 101 4.9 热图 102 4.10 缺失值的图表 103 4.11 解释性图表 104 4.12 小结 106 第5章 回归 107 5.1 一元线性回归 108 5.2 多元线性回归 120 5.3 多项式回归 127 5.4 小结 134 第6章 分类 136 6.1 一个简单的例子 137 6.2 逻辑回归 139 6.3 分类树 143 6.4 朴素贝叶斯 147 6.5 K-近邻 151 6.6 支持向量机 155 6.7 神经网络 159 6.8 集成 165 6.9 森林 168 6.10 梯度提升机 171 6.11 小结 174 第7章 评估模型性能 176 7.1 过拟合 177 7.2 偏差和方差 183 7.3 干扰因子 187 7.4 数据泄漏 188 7.5 测定回归性能 190 7.6 测定分类性能 194 7.7 交叉验证 197 7.8 其他机器学习诊断法 204 7.8.1 获取更多的训练观测数据 205 7.8.2 特征降维 205 7.8.3 添加新特征 205 7.8.4 添加多项式特征 206 7.8.5 对正则化参数进行微调 206 7.9 小结 206 第8章 非监督学习 208 8.1 聚类 209 8.2 模拟聚类 211 8.3 分级聚类 212 8.4 K-均值聚类 219 8.5 主成分分析 224 8.6 小结 233 术语表 234 Daniel D. Gutierrez是一位在职的数据科学家,就职于加州Santa Monica的咨询公司AMULET Analytics。为了紧跟行业的潮流,Daniel也是insideBIGDATA.的执行编辑。同时,他也是一位教师,为大学和大型公司开设了数据科学、机器学习和R方面的课程。Deniel本科毕业于UCLA,专业是数学和计算机科学。
上传时间:2018-03 大小:11.04MB
- 28.40MB
机器学习与数据科学(全套PDF格式的讲义)
2017-10-2104_学习过程的统计性质与集成学习.pdf 05_支持向量机与统计学习理论_I.pdf 05_支持向量机与统计学习理论_I_II.pdf 06_正则化理论及其应用_I_II.pdf 07_无监督学习_I_II_III.pdf 08_压缩感知与稀疏表示_I_II.pdf 09_...
- 3.15MB
2020 年 Kaggle 机器学习与数据科学调查.zip
2022-02-16使用 plotly 深入研究数据可视化。可以使用 plotly express 和 graph 对象来绘制一些带有数据的图表。 调查人群中的性别差距是显而易见的。女性在角色和薪酬方面存在巨大差异 很大比例的女性是学生。这表明如果...
- 129KB
基于wine数据集的数据分析报告(R语言).doc
2022-12-23数据挖掘通常与计算机科学有关,并通过统计、在线分析处 理、情报检索、机器学习、专家系统和模式识别等诸多方法来实现上述目标。在大数据 时代,如何从海量数据中挖掘有用信息成为了信息产业的热门话题。本文作为...
- 1.16MB
Shiny_APP_RStiduo_Statistic_Probability_Machine_Learning:使用R的Shiny软件包为数据科学和机器学习操作创建基于交互式GUI的应用程序
2021-02-18使用R的Shiny软件包为数据科学和机器学习操作创建基于交互式GUI的应用程序。 安装R Project进行统计计算 点击 安装RStudio 点击 Shiny v1.5.0文档 点击 目录结构 C:\ Users \ Desktop \ Shiny_APP> ls server.R ...
- 145KB
带有ruby的数据科学:基于Ruby的工具的实用数据科学
2021-01-31[ | | ]Ruby的出色数据科学 Ruby中用于数据处理和分析的链接和资源是一个新的“性感”流行词,没有特定含义,但通常用于替代统计,科学计算,文本和数据挖掘与可视化,机器学习,数据处理和仓储以及任何形式的检索...
- 190KB
Security-Data-Analysis-with-R:一系列实验室将帮助用户将各种数据科学技术应用于与安全相关的数据。 基于Mike Sconzo和David Dorsey在Python中使用ML
2021-05-12带R的安全数据分析一系列实验室将帮助用户将各种数据科学技术应用于与安全相关的数据。 基于Mike Sconzo和David Dorsey基于Python的ML。介绍这是R语言,改写了和在BSidesDFW的研讨会上为期两天的Python机器学习课程...
- 1.99GB
ADS_Teaching:应用数据科学@哥伦比亚的教学资源库,这是一个基于项目的数据科学技能课程(统计思维,机器学习,数据工程,团队合作,演示,承受挫折感等)
2021-04-28Stat GU4243 / GR5243应用数据科学 2021年Spring-教材() 快捷方式: | | | 项目周期1 :(个人)R笔记本进行探索性数据分析 () 第一周(1月13日) +示例:| | 演示文稿和更多示例: Repo1 GitHub上的教程 第...
- 456KB
R,数据分析语言-研究论文
2021-06-10我们试图通过将 R 与其他可用于数据科学的语言进行比较来解释为什么 R 是数据分析的首选。 我们还讨论了它的局限性和处理这些问题的解决方案。 本文将有助于研究人员深入了解 R,他们将从事数据分析相关项目。
- 34KB
java多用户商城源码-Awesome-Machine-Learning-DataScience_Resources:用于认真学习机器学习和数
2021-06-05人们闯入机器学习和数据科学领域的励志故事 一般数据集 手写数字 从街景 - 美国政府开放数据之家 8000 万个小图像6。 1 亿个雅虎数据集 - 浏览公共数据世界 - 快速搜索和分析政府、公司和组织发布的数十亿条公共记录...
- 135KB
人工智能领域的术语,主要有哪些?.pdf
2023-02-27数据科学(Datascience):结合统计、信息科学、计算机科学的科学⽅法、科学系统和科学过程的交叉学科,通过结构化或⾮结构化数据 提供对现象的洞察。 决策树(Decisiontree):⼀个基于分⽀的树模型,绘制决策及其...
- 61.30MB
svm流量预测代码matlab-Data-Science-portfolio:策划项目组合-数据科学组合
2021-06-19数据科学组合 职业总结 超过 4 年的客户和市场分析数据分析师经验,以得出数据驱动的决策 具有构建和自动化仪表板以监控和跟踪 KPI BI 工具(如 Tableau、Power BI、Python)的经验 通过探索性数据分析、描述性统计...
- 825KB
scmamp:多种算法的统计比较
2021-05-10这是一个简单的R包,旨在简化不同问题中算法的比较中结果的统计分析。 它主要关注非参数方法,并为配对测试实现Shaffer静态以及Bergmann和Hommel动态校正。 该软件包还包括一些绘图工具,例如Demšar,J.,2006中...
- 157KB
大数据的统计学基础(2).pdf
2022-12-24曾经讲授炼数成金上《数据分析、展现与 R 语言》、《数据分析 与 SAS》、《Hadoop 数据分析平台》等多门受欢迎课程。他将带领他的数据分 析团队完成整个授课工作。 何翠仪,中山大学统计学专业毕业,炼数成金专职...
- 57.87MB
data-blog:R.撰写的有关数据科学的博客,由Hugo和Blogdown提供支持
2021-05-13数据科学博客 这是我关于博客的Git存储... 该博客专注于使用R进行机器学习,统计和数据可视化的应用。 技术细节 博客是使用生成的,该利用了静态网站生成器 。 该博客的设计基于。 通过使用可以使用户生成的内容可用。
- 30KB
大数据架构师的岗位职责.docx
2022-12-24具备海量数据加工处理(ETL)相关经验,对数据挖掘及机器学习有较为深刻的理解; 2、熟悉Hadoop相关技术,对HDFS、MapReduce、Hive、HBase有一定的使用和开发经验; 3、熟悉Linux,熟练使用Shell或Python,进行脚本编写;...
- 1.16GB
三维逻辑回归matlab代码-Coursera:Coursera
2021-05-20数据应用探索性分析机器学习统计推断 R / R工作室闪亮的 活力环境卫生保健卫生保健信息技术运输 描述 从提出正确的问题到做出推理和发布结果,整个数据科学流程都需要概念和工具。 包括: 通过将数据读入R,访问R包...
- 267.35MB
DSTK - Data Science TooKit 3:面向所有人的数据和文本挖掘软件-开源
2021-04-29DSTK使用统计和文本分析提供数据理解,使用规范化和文本处理提供数据准备,为机器学习和算法提供建模和评估。 它基于https://sourceforge.net/projects/dstk2/上的旧版本DSTK,DSTK Engine类似于R。...
- 7KB
capstone-phase1
2021-04-30用于数据科学的R工具链包括R,以及几个实用程序,这些实用程序提供了无与伦比的工具集合,可用于机器/统计学习,数据可视化和可再现的报告。 要在您的机器上设置R工具链,请访问 ,阅读第1-3章,并按照第1章中的...
- 2KB
digitalCV
2021-03-14数据分析师 :China: 中国杭州和加拿大多伦多 :Canada: / / 教育多伦多大学统计科学系2018.09—现在三年级,就读于统计专家和统计专家:主要研究的理论和方法:文艺复兴时期和巴洛克时期的统计学,数学,计算机科学和...
- 244KB
Origin绘制相关性热图插件(Correlation Plot)
2023-09-12Origin绘制相关性热图插件(Correlation Plot),可以绘制相关性热图,不需要代码,格式为opx后缀格式,直接拖入软件就可以~
- 31KB
(免费)Chrome浏览器插件axure-chrome-extension
2023-11-16安装方法详见: https://blog.csdn.net/han_qiqi/article/details/134435059?spm=1001.2014.3001.5501 Axure RP Extension for Chrome是原型设计工具Axure RP的Chrome浏览器插件。因为在线安装需要访问Google Chrome在线商店,访问不了。所以提供一个离线版本进行安装。
- 8.15MB
vep视频快速加密提取器
2023-07-13vep视频快速加密提取器
- 23KB
noc指导教师资格认证题库
2023-12-27都是自己在考试做题的时候记录下来的,答案也是自己查找核对过的 80道题左右,已转化为电子版 仅供各位老师们参考,码字不易,谢谢支持
- 6.92MB
2011-2022年北大数字普惠金融指数数据(包括省市县).zip
2024-01-222011-2022年北大数字普惠金融指数“第五期”(包括省市县) 1、时间:2011-2022年 其中县级的时间为2014-2022年 2、来源:北京大学数字普惠金融指数 3、范围:全国31省,337个地级市以及2800个县 4、指标:覆盖广度、使用深度、支付业务、保险业务、货币基金业务、投资业务、信用业务、信贷业务、数字化程度 这套指数包括数字普惠金融指数,以及数字金融覆盖广度、数字金融使用深度以及普惠金融数字化程度;此外使用深度指数中还包含支付、信贷、保险、信用、投资、货币基金等业务分类指数;但由于监管和公司数据安全审核等方面的原因,2019-2022年的信用和货币基金分指数,没有对外公布。 5、参考文献:郭峰,王靖一,王芳,孔涛,张勋,程志云.测度中国数字普惠金融发展:指数编制与空间特征
- 35.15MB
最新版YS9082HC主控开卡工具 YS9082HC-MPToolV8.00.00.18.826-HCS1A25E2023062
2023-07-08最新版YS9082HC主控开卡工具 YS9082HC-MPToolV8.00.00.18.826-HCS1A25E2023062
- 8KB
糖尿病数据集diabetes.csv(免费)
2023-04-23糖尿病数据集diabetes.csv,深度学习可用,学习之用 获取地址:https://gitee.com/xxxstar/diabetes/blob/master/DATA/diabetes.csv#
- 6.84MB
IEEE 802.11be(WiFi7) 协议原文pdf文档
2023-04-27IEEE 802.11be协议 WiFi7协议 WiFi WLAN 协议 无线局域网 最新版WiFi协议 WiFi8 WiFi6 IEEE 802.11ax IEEE 802.11ac IEEE 802.11n IEEE 802.11g IEEE 802.11a IEEE 802.11b IEEE 802.11-1997
- 2KB
Mann -kendall突变检验的MATLAB代码
2023-12-31这个代码对相应路径下的所有的EXCEL表的数据都做Mann-Kendall检验
- 67.8MB
全国统计用区划代码和城乡划分代码(2023版)
2024-01-02全国统计用区划代码和城乡划分代码(2023版)
- 13KB
卷积神经网络的概要介绍与分析
2024-05-03卷积神经网络(Convolutional Neural Networks,简称CNN)作为深度学习领域的一项核心技术,自1990年代以来在图像识别、计算机视觉、自然语言处理等多个领域展现了非凡的能力。了解和掌握CNN不仅对学术研究至关重要,也是现代人工智能应用开发的基础。以下是一个关于卷积神经网络的综合学习资源描述,旨在为初学者到高级研究者提供全面的学习路径和资料推荐。 ### 入门篇:基础理论与概念理解 - **在线课程**:Coursera上的《卷积神经网络》课程(由斯坦福大学Andrew Ng教授授课)是入门者的首选,它从最基础的神经网络概念讲起,逐步过渡到卷积层、池化层、全连接层等核心概念,结合丰富的可视化解释和实战练习,帮助学习者构建扎实的基础。 - **书籍**:《深度学习》(Ian Goodfellow, Yoshua Bengio, Aaron Courville著)是一本经典的深度学习教科书,其中对CNN的介绍既深入又全面,适合想要深入了解理论的读者。书中详细讲解了CNN的结构、训练方法以及背后的数学原理。 - **实践教程**:Kaggle和TensorFl