没有合适的资源?快使用搜索试试~ 我知道了~
数据挖掘与机器学习(一).pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 120 浏览量
2023-06-13
23:28:36
上传
评论 1
收藏 2.5MB PDF 举报
温馨提示
试读
48页
数据挖掘与机器学习(一).pdf
资源推荐
资源详情
资源评论
数据挖掘与机器学习(一)
Part I 数据挖掘与机器学习数据挖掘与机器学习
一、数据挖掘、机器学习、深度学习的区别一、数据挖掘、机器学习、深度学习的区别
1、数据挖掘、数据挖掘
数据挖掘也就是data mining,是一个很宽泛的概念,也是一个新兴学科,旨在如何从海量数
据中挖掘出有用的信息来。
数据挖掘这个工作BI(商业智能)可以做,统计分析可以做,大数据技术可以做,市场运营
也可以做,或者用excel分析数据,发现了一些有用的信息,然后这些信息可以指导你的
business,这也属于数据挖掘。目前最常见的方式是结合机器学习的算法模型来实现数据挖
掘。
2、机器学习、机器学习
machine learning,是计算机科学和统计学的交叉学科,基本目标是学习一个x->y的函数(映
射),来做分类、聚类或者回归的工作。之所以经常和数据挖掘合在一起讲是因为现在好多
数据挖掘的工作是通过机器学习提供的算法工具实现的,例如广告的ctr预估,PB级别的点
击日志在通过典型的机器学习流程可以得到一个预估模型,从而提高互联网广告的点击率和
回报率;个性化推荐,还是通过机器学习的一些算法分析平台上的各种购买,浏览和收藏日
志,得到一个推荐模型,来预测你喜欢的商品。
3、深度学习、深度学习
deep learning,机器学习里面现在比较火的一个topic,本身是神经网络算法的衍生,在图像,
语音等富媒体的分类和识别上取得了非常好的效果,所以各大研究机构和公司都投入了大量
的人力做相关的研究和开发。
总结总结:数据挖掘是个很宽泛的概念,数据挖掘常用方法大多来自于机器学习这门学科,深度
学习也是来源于机器学习的算法模型,本质上是原来的神经网络。
二、数据挖掘体系二、数据挖掘体系
数据挖掘:统计学、数据库系统、数据仓库、信息检索、机器学习、应用、模式识别、可视
化、算法、高性能计算(分布式、GPU计算)
三、数据挖掘的流程三、数据挖掘的流程
目前,越来越多的人认为数据挖掘应该属于一种知识发现过程(KDD:Knowledge Discovery
in Database)。
KDD过程迭代序列:
1、数据清理=》消除噪声和删除不一致数据
2、数据集成=》多种数据源可以组合在一起
3、数据选择=》从数据库中提取与分析任务相关数据
4、数据变换=》通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式
5、数据挖掘=》使用一定的模型算法提取数据模式
6、模式评估=》根据某种兴趣度度量,识别代表知识的真正有趣的模式
7、知识表示=》使用可视化和知识表示技术,向用户提供挖掘的知识
总结数据挖掘的定义总结数据挖掘的定义:从大量数据中挖掘有趣模式和知识的过程。
以上数据挖掘模式的实现,如果不考虑数据来源的获取,数据的ETL,数据的可视化等过
程,单从算法模型上来看,最主要的就是利用统计学+机器学习算法来实现数据挖掘。
四、典型的数据挖掘系统四、典型的数据挖掘系统
Part II 机器学习机器学习
课程目标课程目标
1. 熟悉课程里所介绍的各种算法的细节
2. 懂得如何使用这些算法去解决实际场景问题
3. 熟悉了解常用的统计学软件
一、什么是机器学习一、什么是机器学习
机器学习是是一门多领域交叉学科。涉及概率论、统计学、逼近论、凸分析、算法复杂度理
论等多门学科。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智
能的各个领域。
比如人工智能领域中的:
1. 自动推理
2. 自然语言理解
3. 模式识别
4. 计算机视觉
5. 智能机器人等领域。
此外,机器学习的算法在数据挖掘里也被大量使用。
二、机器学习比较活跃的领域二、机器学习比较活跃的领域
1、数据分析和数据挖掘、数据分析和数据挖掘
利用机器学习的模型算法,从现实世界的海量数据里提炼出有价值的知识,规则和模式。并
应用到前台系统,辅助业务的进行。例如:用户推荐,预测结果,精准分类等,使到业务能
产生更大的效益。
2、人工智能、人工智能——图像和语音识别图像和语音识别
例如:语音输入,OCR,手写输入,通讯监控,车牌识别,挃纹识别,虹
膜识别,脸像识别智慧机器,机器人生产线机器人,人机对话,智能博弈。
三、经典机器学习算法三、经典机器学习算法
四、监督学习和无监督学习四、监督学习和无监督学习
1、监督学习概念介绍、监督学习概念介绍
监督学习是指利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也
称为监督训练或有导师训练。
监督学习是从标记的训练数据来推断一个功能的机器学习任务。训练数据包括一套训练示
例。在监督学习中,每个实例都是由一个输入对象(通常为矢量)和一个期望的输出值(也
称为监督信号)组成。监督学习算法是分析该训练数据,并产生一个推断的功能,其可以用
于映射出新的实例。一个最佳的方案将允许该算法来正确地决定那些看不见的实例的类标
签。这就要求学习算法是在一种“合理”的方式从一种从训练数据到看不见的情况下形成。
监督学习中在给予计算机学习样本的同时,还告诉计算各个样本所属的类别。若所给的学习
样本不带有类别信息,就是无监督学习。任何一种学习都有一定的目的,对于模式识别来
说,就是要通过有限数量样本的学习,使分类器在对无限多个模式进行分类时所产生的错误
概率最小。
常见的监督学习算法常见的监督学习算法
(1)线性回归
(2)逻辑回归
(3)朴素贝叶斯
csv
经典的机器学习算
法.docx
128.03KB
剩余47页未读,继续阅读
资源评论
oligaga
- 粉丝: 50
- 资源: 2万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功