没有合适的资源？快使用搜索试试~ 我知道了~

文库首页前端Node.js数据挖掘机器学习总结 (2).docx

数据挖掘机器学习总结 (2).docx

1.该资源内容由用户上传，如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款（资源遇到问题，请及时私信上传者）

版权申诉

0 下载量 85 浏览量 2022-06-14 16:30:11 上传评论收藏 39KB DOCX 举报

温馨提示

试读

22页

数据挖掘机器学习总结 (2).docx数据挖掘机器学习总结 (2).docx数据挖掘机器学习总结 (2).docx数据挖掘机器学习总结 (2).docx数据挖掘机器学习总结 (2).docx数据挖掘机器学习总结 (2).docx数据挖掘机器学习总结 (2).docx数据挖掘机器学习总结 (2).docx

资源推荐

资源详情

资源评论

本文格式为 Word 版，下载可任意编辑

数据挖掘机器学习总结

【开挖掘机年终总结】

1 决策树算法

机器学习中，决策树是一个预报模型；它代表的是对象属性值与对象值之间的一

种映射关系。树中每个节点表示某个对象，每个分叉路径那么代表的某个可能的

属性值，而每个叶结点那么对应具有上述属性值的子对象。决策树仅有单一输出；

假设须要多个输出，可以建设自立的决策树以处理不同输出。

从数据产生决策树的机器学习技术叫做决策树学习, 通俗说就是决策树。

决策树学习也是数据挖掘中一个一般的办法。在这里，每个决策树都表述了一种

树型构造，它由它的分支来对该类型的对象依赖属性进行分类。每个决策树可以

依赖对源数据库的分割进行数据测试。这个过程可以递归式的对树进行修剪。当

不能再进行分割或一个独自的类可以被应用于某一分支时，递归过程就完成了。

另外，随机森林分类器将许多决策树结合起来以提升分类的正确率。决策树同

时也可以依赖计算条件概率来结构。决策树假如依赖数学的计算办法可以取得越

发抱负的效果。

1.1 决策树的工作原理

决策树普通都是自上而下的来生成的。

挑选分割的办法有多种，但是目的都是一致的，即对目标类尝试进行最正确的分

割。

从根节点到叶子节点都有一条路径，这条路径就是一条“规那么〞。

决策树可以是二叉的，也可以是多叉的。

第 1 页共 22 页

本文格式为 Word 版，下载可任意编辑

对每个节点的衡量：

1) 通过该节点的记录数；

2) 假如是叶子节点的话，分类的路径；

3) 对叶子节点正确分类的比例。

有些规那么的效果可以比其他的一些规那么要好。

1.2 ID3 算法

1.2.1 概念提取算法 CLS

1) 初始化参数 C={E}，E 包括全部的例子，为根；

2) 假如 C 中的任一元素 e 同属于同一个决策类那么创立一个叶子节点 YES 终止；

否那么依启发式规范，挑选特征 Fi={V1, V2, V3,……, Vn}并创立判定节点，划分

C 为互不相交的 N 个集合 C1，C2，C3，……，Cn；

3) 对任一个 Ci 递归。

1.2.2 ID3 算法

1) 随机挑选 C 的一个子集/20xx0817/689481.html

的磁盘分区，用于虚拟内存，这样虚拟的内存那么增加为 4096*6 + 1024 =

25600 M，解决了数据处理中的内存缺乏问题。

七、分批处理

海量数据处理难因为数据量大，则解决海量数据处理难的问题其中一个技巧是削

减数据量。可以对海量数据分批处理，然后处理后的数据再进行合并操作，这样

逐个击破，有利于小数据量的处理，不至于面对大数据量带来的问题，不过这种

办法也要因时因势进行，假如不允许拆分数据，还须要另想方法。不过普通的数

据按天、按月、按年等存储的，都可以采纳先分后合的办法，对数据进行分开处

第 2 页共 22 页

本文格式为 Word 版，下载可任意编辑

理。

八、使用暂时表和中间表

数据量增加时，处理中要考虑提前汇总。这样做的目的是化整为零，大表变小表，

分块处理完成后，再利用肯定的规那么进行合并，处理过程中的暂时表的使用和

中间结果的保留都格外重要，假如对于超海量的数据，大表处理不了，只能拆分

为多个小表。假如处理过程中须要多步汇总操作，可按汇总步骤一步步来，不要

一条语句完成，一口气吃掉一个胖子。

九、优化查询 SQL 语句

在对海量数据进行查询处理过程中，查询的 SQL 语句的性能对查询效率的影响

是格外大的，编写高效优良的 SQL 脚本和存储过程是数据库工作人员的职责，

也是检验数据库工作人员水平的一个规范，在对 SQL 语句的编写过程中，示例

削减关联，少用或不用游标，设计好高效的数据库表构造等都十分必要。笔者在

工作中试着对 1 亿行的数据使用游标，运行 3 个小时没有出结果，这是肯定要

改用程序处理了。

十、使用文本格式进行处理

对普通的数据处理可以使用数据库，假如对冗杂的数据处理，必需借助程序，则

在程序操作数据库和程序操作文本之间挑选，是肯定要挑选程序操作文本的，缘

由为：程序操作文本速度快；对文本进行处理不简单出错；文本的存储不受限制

等。示例普通的海量的网络日志都是文本格式或者 csv 格式〔文本格式〕，对它

进行处理牵扯到数据清洗，是要利用程序进行处理的，而不倡议导入数据库再做

清洗。

十一、定制强大的清洗规那么和出错处理机制

第 3 页共 22 页

本文格式为 Word 版，下载可任意编辑

海量数据中存在着不一致性，极有可能浮现某处的瑕疵。示例，同样的数据中的

时间字段，有的可能为非规范的时间，浮现的缘由可能为应用程序的错误，系统

的错误等，这是在进行数据处理时，必需制定强大的数据清洗规那么和出错处理

机制。

十二、建设视图或者物化视图

视图中的数据来源于基表，对海量数据的处理，可以将数据按肯定的规那么分散

到各个基表中，查询或处理过程中可以基于视图进行，这样分散了磁盘 I/O，正

如 10 根绳子吊着一根柱子和一根吊着一根柱子的区分。

十三、避开使用 32 位机子〔极端状况〕

目前的计算机无数都是 32 位的，则编写的程序对内存的须要便受限制，而无数

的海量数据处理是必需大量耗费内存的，这便要求更好性能的机子，其中对位数

的限制也十分重要。

十四、考虑操作系统问题

海量数据处理过程中，除了对数据库，处理程序等要求比拟高以外，对操作系统

的要求也放到了重要的位置，普通是必需使用效劳器的，而且对系统的平安性和

稳定性等要求也比拟高。尤其对操作系统自身的缓存机制，暂时空间的处理等问

题都须要综合考虑。

十五、使用数据仓库和多维数据库存储

数据量加大是肯定要考虑 OLAp 的，传统的报表可能 5 、6 个小时出来结果，而

基于 Cube 的查询可能只须要几分钟，因而处理海量数据的利器是 OLAp 多维

分析，即建设数据仓库，建设多维数据集，基于多维数据集进行报表呈现和数据

挖掘等。

第 4 页共 22 页

本文格式为 Word 版，下载可任意编辑

十六、使用采样数据，进行数据挖掘

基于海量数据的数据挖掘正在逐步兴起，面对着超海量的数据，普通的挖掘软件

或算法往往采纳数据抽样的方式进行处理，这样的误差不会很高，大大提高了处

理效率和处理的胜利率。普通采样时要留意数据的完好性和，防止过大的偏差。

笔者曾经对 1 亿 2 千万行的表数据进行采样，抽取出 400 万行，经测试软件测

试处理的误差为千分之五，客户可以承受。

还有一些办法，须要在不同的状况和场合下运用，示例使用代理键等操作，这样

的益处是加快了聚合时间，因为对数值型的聚合比对字符型的聚合快得多。类似

的状况须要针对不同的需求进行处理。

海量数据是进展趋势，对数据分析和挖掘也越来越重要，从海量数据中提取实用

信息重要而紧迫，这便要求处理要精确，精度要高，而且处理时间要短，得到有

价值信息要快，所以，对海量数据的讨论很有前途，也很值得进行宽泛深入的讨

论。

财务年度数据总结

财务处工作总结范文【1】

XX 年很快就要过去，回忆一年来本部门所做的工作：未了的历史遗留事宜、会

计核算业务的改变、会计核算体系的调节、会计人员的调节、银行还贷压力、资

金筹措压力、大量资金结算业务，繁杂的日常报销工作、日常财务、会计监视工

作，繁杂的分部门、分工程核算工作，财务预算、打算执行状况的核算，各种财

务票据的领取、标准化使用、票据核销工作，财务标准的贯彻落实、资金借贷合

同的草拟、公文写作学问的学习、运用，内部部门间工作的协调，外部财政、物

第 5 页共 22 页

剩余21页未读，继续阅读

评论收藏

内容反馈

1.该资源内容由用户上传，如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款（资源遇到问题，请及时私信上传者）

版权申诉

资源评论

资源反馈

评论星级较低，若资源使用遇到问题可联系上传者，3个工作日内问题未解决可申请退款~

苦茶子12138

粉丝: 1w+
资源: 6万+

上传资源快速赚钱

我的内容管理展开

我的资源快来上传第一个资源

我的收益

登录查看自己的收益

我的积分登录查看自己的积分

我的C币登录后查看C币余额

我的收藏

我的下载

下载帮助

前往需求广场，查看用户热搜

数据挖掘机器学习总结 (2).docx

数据挖掘机器学习-支持向量机libsvm实验报告.docx

数据挖掘与机器学习.docx

机器学习与数据挖掘复习..docx

机器学习与数据挖掘复习.docx

《数据挖掘与机器学习》教学大纲 (2).docx

足下校园评估系统数据挖掘与机器学习答案.docx

代码实例及详细资料带你入门Python数据挖掘与机器学习.docx

《数据挖掘与机器学习》教学大纲.docx

2013百度校园招聘-机器学习和数据挖掘工程师-笔试题.docx

数据挖掘机器学习考试简答题.docx

模式识别和机器学习数据挖掘的区别与联系.docx

机器学习与数据挖掘中的十大经典算法.docx

Python数据挖掘与机器学习实战 - 选题.docx

机器学习与数据挖掘.docx

数据挖掘和机器学习的区别和联系.docx

人工智能,机器学习,模式识别,数据挖掘,信息检索.docx

百度校园招聘-机器学习和数据挖掘工程师-笔试题.docx

使用Weka进行数据挖掘.docx

数据清洗数据分析数据挖掘.docx

KepOPC DA2UA实现从OPCDA到OPCUA的转换及读写互操作

kkFileView-4.4.0-SNAPSHOT.tar.gz

Midjourney-关键词大全

“未来工厂”建设导则.pdf

2024年Java基础面试题，附带详细解析答案

腾讯QQ秀立项调研PPT

5G介绍PPT.pptx

2024年最新最全面的Java后端面试资料

海盗派测试分析.pdf

CHATGPT训练指令模板.docx

最新资源