如何处理数据库中海量数据,以及处理数据库海量数据的经验和技巧
0
推 荐
海量数据是发展趋势,对数据分析和挖掘也越来越重要,从海量数据中提取有用信息重要而紧迫,这便要
求处理要准确,精度要高,而且处理时间要短,得到有价值信息要快,所以,对海量数据的研究很有前
途,也很值得进行广泛深入的研究。 基于海量数据的数据挖掘正在逐步兴起,面对着超海量的数据,一
般的挖掘软件或算法往往采用数据抽样的方式进行处理,这样的误差不会很高,大大提 高了处理效率和
处理的成功率。
在实际的工作环境下,许多人会遇到海量数据这个复杂而艰巨的问题,它的主要难点有以下几个方面:
一、数据量过大,数据中什么情况都可能存在。
如果说有 条数据,那么大不了每条去逐一检查,人为处理,如果有上百条数据,也可以考虑,如果数
据上到千万级别,甚至过亿,那不是手解决的了,必须通过工具或者程序进行处理,尤其海量的数据中,
什么情况都可能存在,例如,数据中某处格式出了问题,尤其在程序处理时,前面还能正常处理,突然到
了某个地方问题出现了,程序终止了。
二、软硬件要求高,系统资源占用过高
对海量的数据进行处理,除了好的方法,最重要的就是合理使用工具,合理分配系统资源。一般情
况,如果处理的数据过 级,小型机是要考虑的,普通的机子如果有好的方法可以考虑,不过也必须加
大 和内存,就象面对着千军万马,光有勇气没有一兵一卒是很难取胜的。
三、要求很高的处理方法和技巧。
这也是本文的写作目的所在,好的处理方法是一位工程师长期工作经验的积累,也是个人的经验的总
结。没有通用的处理方法,但有通用的原理和规则。
下面我们来详细介绍一下处理海量数据的经验和技巧:
一、选用优秀的数据库工具
现在的数据库工具厂家比较多,对海量数据的处理对所使用的数据库工具要求比较高,一般使用
或者 !,微软公 司最近发布的 "#$" % & 性能也不错。另外在 ' 领域:数据库,数
据仓库,多维数据库,数据挖掘,傲博知识库等相关工具也要进行选择,象好的 ($ 工具和好的 $)
工具都十分必要, 例如 '*+,-,(../. 等。笔者在实际数据分析项目中,对每天 万条的
日志数据进行处理,使用 "#$" % 需要花费 小时,而使用 "#$" % & 则只需要花费
0 小时。