没有合适的资源?快使用搜索试试~ 我知道了~
数据挖掘机器学习总结 (2).docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 85 浏览量
2022-06-14
16:30:11
上传
评论
收藏 39KB DOCX 举报
温馨提示
试读
22页
数据挖掘机器学习总结 (2).docx数据挖掘机器学习总结 (2).docx数据挖掘机器学习总结 (2).docx数据挖掘机器学习总结 (2).docx数据挖掘机器学习总结 (2).docx数据挖掘机器学习总结 (2).docx数据挖掘机器学习总结 (2).docx数据挖掘机器学习总结 (2).docx
资源推荐
资源详情
资源评论
本文格式为 Word 版,下载可任意编辑
数据挖掘机器学习总结
【 开挖掘机年终总结】
1 决策树算法
机器学习中,决策树是一个预报模型;它代表的是对象属性值与对象值之间的一
种映射关系。树中每个节点表示某个对象,每个分叉路径那么代表的某个可能的
属性值,而每个叶结点那么对应具有上述属性值的子对象。决策树仅有单一输出;
假设须要多个输出,可以建设自立的决策树以处理不同输出。
从数据产生决策树的机器学习技术叫做决策树学习, 通俗说就是决策树。
决策树学习也是数据挖掘中一个一般的办法。在这里,每个决策树都表述了一种
树型构造,它由它的分支来对该类型的对象依赖属性进行分类。每个决策树可以
依赖对源数据库的分割进行数据测试。这个过程可以递归式的对树进行修剪。当
不能再进行分割或一个独自的类可以被应用于某一分支时,递归过程就完成了。
另外,随机森林分类器将许多决策树结合起来以提升分类的正确率。 决策树同
时也可以依赖计算条件概率来结构。决策树假如依赖数学的计算办法可以取得越
发抱负的效果。
1.1 决策树的工作原理
决策树普通都是自上而下的来生成的。
挑选分割的办法有多种,但是目的都是一致的,即对目标类尝试进行最正确的分
割。
从根节点到叶子节点都有一条路径,这条路径就是一条“规那么〞。
决策树可以是二叉的,也可以是多叉的。
第 1 页 共 22 页
本文格式为 Word 版,下载可任意编辑
对每个节点的衡量:
1) 通过该节点的记录数;
2) 假如是叶子节点的话,分类的路径;
3) 对叶子节点正确分类的比例。
有些规那么的效果可以比其他的一些规那么要好。
1.2 ID3 算法
1.2.1 概念提取算法 CLS
1) 初始化参数 C={E},E 包括全部的例子,为根;
2) 假如 C 中的任一元素 e 同属于同一个决策类那么创立一个叶子节点 YES 终止;
否那么依启发式规范,挑选特征 Fi={V1, V2, V3,……, Vn}并创立判定节点,划分
C 为互不相交的 N 个集合 C1,C2,C3,……,Cn;
3) 对任一个 Ci 递归。
1.2.2 ID3 算法
1) 随机挑选 C 的一个子集/20xx0817/689481.html
的磁盘分区,用于虚拟内存,这样虚拟的内存那么增加为 4096*6 + 1024 =
25600 M,解决了数据处理中的内存缺乏问题。
七、分批处理
海量数据处理难因为数据量大,则解决海量数据处理难的问题其中一个技巧是削
减数据量。可以对海量数据分批处理,然后处理后的数据再进行合并操作,这样
逐个击破,有利于小数据量的处理,不至于面对大数据量带来的问题,不过这种
办法也要因时因势进行,假如不允许拆分数据,还须要另想方法。不过普通的数
据按天、按月、按年等存储的,都可以采纳先分后合的办法,对数据进行分开处
第 2 页 共 22 页
本文格式为 Word 版,下载可任意编辑
理。
八、使用暂时表和中间表
数据量增加时,处理中要考虑提前汇总。这样做的目的是化整为零,大表变小表,
分块处理完成后,再利用肯定的规那么进行合并,处理过程中的暂时表的使用和
中间结果的保留都格外重要,假如对于超海量的数据,大表处理不了,只能拆分
为多个小表。假如处理过程中须要多步汇总操作,可按汇总步骤一步步来,不要
一条语句完成,一口气吃掉一个胖子。
九、优化查询 SQL 语句
在对海量数据进行查询处理过程中,查询的 SQL 语句的性能对查询效率的影响
是格外大的,编写高效优良的 SQL 脚本和存储过程是数据库工作人员的职责,
也是检验数据库工作人员水平的一个规范,在对 SQL 语句的编写过程中,示例
削减关联,少用或不用游标,设计好高效的数据库表构造等都十分必要。笔者在
工作中试着对 1 亿行的数据使用游标,运行 3 个小时没有出结果,这是肯定要
改用程序处理了。
十、使用文本格式进行处理
对普通的数据处理可以使用数据库,假如对冗杂的数据处理,必需借助程序,则
在程序操作数据库和程序操作文本之间挑选,是肯定要挑选程序操作文本的,缘
由为:程序操作文本速度快;对文本进行处理不简单出错;文本的存储不受限制
等。示例普通的海量的网络日志都是文本格式或者 csv 格式〔文本格式〕,对它
进行处理牵扯到数据清洗,是要利用程序进行处理的,而不倡议导入数据库再做
清洗。
十一、定制强大的清洗规那么和出错处理机制
第 3 页 共 22 页
本文格式为 Word 版,下载可任意编辑
海量数据中存在着不一致性,极有可能浮现某处的瑕疵。示例,同样的数据中的
时间字段,有的可能为非规范的时间,浮现的缘由可能为应用程序的错误,系统
的错误等,这是在进行数据处理时,必需制定强大的数据清洗规那么和出错处理
机制。
十二、建设视图或者物化视图
视图中的数据来源于基表,对海量数据的处理,可以将数据按肯定的规那么分散
到各个基表中,查询或处理过程中可以基于视图进行,这样分散了磁盘 I/O,正
如 10 根绳子吊着一根柱子和一根吊着一根柱子的区分。
十三、避开使用 32 位机子〔极端状况〕
目前的计算机无数都是 32 位的,则编写的程序对内存的须要便受限制,而无数
的海量数据处理是必需大量耗费内存的,这便要求更好性能的机子,其中对位数
的限制也十分重要。
十四、考虑操作系统问题
海量数据处理过程中,除了对数据库,处理程序等要求比拟高以外,对操作系统
的要求也放到了重要的位置,普通是必需使用效劳器的,而且对系统的平安性和
稳定性等要求也比拟高。尤其对操作系统自身的缓存机制,暂时空间的处理等问
题都须要综合考虑。
十五、使用数据仓库和多维数据库存储
数据量加大是肯定要考虑 OLAp 的,传统的报表可能 5 、6 个小时出来结果,而
基于 Cube 的查询可能只须要几分钟,因而处理海量数据的利器是 OLAp 多维
分析,即建设数据仓库,建设多维数据集,基于多维数据集进行报表呈现和数据
挖掘等。
第 4 页 共 22 页
本文格式为 Word 版,下载可任意编辑
十六、使用采样数据,进行数据挖掘
基于海量数据的数据挖掘正在逐步兴起,面对着超海量的数据,普通的挖掘软件
或算法往往采纳数据抽样的方式进行处理,这样的误差不会很高,大大提高了处
理效率和处理的胜利率。普通采样时要留意数据的完好性和,防止过大的偏差。
笔者曾经对 1 亿 2 千万行的表数据进行采样,抽取出 400 万行,经测试软件测
试处理的误差为千分之五,客户可以承受。
还有一些办法,须要在不同的状况和场合下运用,示例使用代理键等操作,这样
的益处是加快了聚合时间,因为对数值型的聚合比对字符型的聚合快得多。类似
的状况须要针对不同的需求进行处理。
海量数据是进展趋势,对数据分析和挖掘也越来越重要,从海量数据中提取实用
信息重要而紧迫,这便要求处理要精确,精度要高,而且处理时间要短,得到有
价值信息要快,所以,对海量数据的讨论很有前途,也很值得进行宽泛深入的讨
论。
财务年度数据总结
财务处工作总结范文【1】
XX 年很快就要过去,回忆一年来本部门所做的工作:未了的历史遗留事宜、会
计核算业务的改变、会计核算体系的调节、会计人员的调节、银行还贷压力、资
金筹措压力、大量资金结算业务,繁杂的日常报销工作、日常财务、会计监视工
作,繁杂的分部门、分工程核算工作,财务预算、打算执行状况的核算,各种财
务票据的领取、标准化使用、票据核销工作,财务标准的贯彻落实、资金借贷合
同的草拟、公文写作学问的学习、运用,内部部门间工作的协调,外部财政、物
第 5 页 共 22 页
剩余21页未读,继续阅读
资源评论
苦茶子12138
- 粉丝: 1w+
- 资源: 6万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功