没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
数据挖掘与数据分析数据挖掘与数据分析
一、数据挖掘和数据分析概述
数据挖掘和数据分析都是从数据中提取一些有价值的信息,二者有很多联系,但是二者的侧重点和实现手法有所区分。
数据挖掘和数据分析的不同之处:
1、在应用工具上,数据挖掘一般要通过自己的编程来实现需要掌握编程语言;而数据分析更多的是借助现有的分析工具进
行。
2、在行业知识方面,数据分析要求对所从事的行业有比较深的了解和理解,并且能够将数据与自身的业务紧密结合起来;而
数据挖掘不需要有太多的行业的专业知识。
3、交叉学科方面,数据分析需要结合统计学、营销学、心理学以及金融、政治等方面进行综合分析;数据挖掘更多的是注重
技术层面的结合以及数学和计算机的集合
数据挖掘和数据分析的相似之处:
1、数据挖掘和数据分析都是对数据进行分析、处理等操作进而得到有价值的知识。
2、都需要懂统计学,懂数据处理一些常用的方法,对数据的敏感度比较好。
3、数据挖掘和数据分析的联系越来越紧密,很多数据分析人员开始使用编程工具进行数据分析,如SAS、R、SPSS等。而数
据挖掘人员在结果表达及分析方面也会借助数据分析的手段。二者的关系的界限变得越来越模糊。
二、数据挖掘
1 数学预备知识
概率论:支撑整个数据挖掘算法和机器学习算法的数学基础,要熟悉常见的一些概率分布。
矩阵论:线性代数中对数据挖掘最有用的部分,还有一些线性空间相关知识也很重要。
信息论:将信息和数学紧密连接在一起并完美的表达的桥梁,需要掌握信息熵、信息增益等相关知识。
统计学:数据分析最早的依赖基础,通常和概率论一起应用,现在的机器学习和数据挖掘很多都是基于统计的,常见的均值、
方差、协方差等都要熟练掌握。
2 编程基础
数据挖掘需要一定的编程基础,因为要实现模型以及数据的处理很多工作都是需要程序来进行的,数据挖掘常用的编程语言如
下:
SQL:数据库的熟练使用是任何数据挖掘人员必不可少的技能。
C++ :有很多的标准模板库以及机器学习模型库进行调用可以方便编程实现。
Python:对字符串处理有极大的优势,是解释型语言,实现简单,而且有很多开源的机器学习模型库的支持,可处理大规模
数据。
Matlab:拥有强大的矩阵运算,也是解释型语言,有很多发展较成熟库可以直接调用,支持数据结果的可视化表示,但是处理
数据量有限。
R:近年兴起的数据分析编程语言,数据可视化做的比较好,语法简单,学习成本很低,很多非程序设计人员都可以数量掌
握。
Java:使用范围最广的编程语言,有很多社区进行交流,进行编程实现具有灵活高效的特点,不足之处就是实现功能的代码
量较大(相对于其他数据挖掘编程语言)。
Scala: 一种具有面向对象风格、函数式风格、更高层的并发模型的编程语言。同时Scala是大数据处理平台Spark的实现语
言。
3 数据挖掘的模型知识
机器学习和数据挖掘是紧密相关的,要进行数据挖掘需要掌握一些机器学习所用的方法和模型知识,通过模型的训练可以得到
处理数据的最优的模型。数据挖掘常用的模型如下:
3.1 监督学习模型
就是人们常说的分类,通过已有的训练样本(即已知数据以及其对应的输出)去训练得到一个最优模型(这个模型属于某个函
数的集合,最优则表示在某个评价准则下是最佳的),再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判
资源评论
weixin_38499706
- 粉丝: 2
- 资源: 906
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功