【免费】如何处理海量数据.pdf资源-CSDN文库

需积分: 0 6 浏览量更新于2012-12-05 收藏 542KB PDF 举报

### 如何处理海量数据 #### 一、挑战与难点处理海量数据是一项极其复杂且具有挑战性的任务。随着数据量的急剧增长，传统的手工处理方式已经无法满足需求，需要借助现代的技术手段来进行高效的管理和分析。海量数据处理面临的几个主要挑战包括： 1. **数据量过大**：当数据规模达到千万乃至亿级别时，单凭人力已难以完成处理工作。此时，不仅可能出现各种预料之外的数据格式问题，还可能导致程序处理中断。 2. **软硬件要求高**：处理TB级别的数据需要强大的计算能力和充足的存储空间。通常情况下，处理这类数据需要考虑使用小型机或其他高性能计算设备，并配备足够的CPU和内存资源。 3. **高超的处理技巧**：有效处理海量数据需要掌握一系列专业技能和经验，这些技巧往往是工程师们长期实践中积累的结果。 #### 二、处理策略与技巧为了应对这些挑战，以下是一些有效的策略和技巧： 1. **选用优秀的数据库工具**：市面上有许多成熟的数据库产品能够支持海量数据的处理，如Oracle、DB2以及SQL Server 2005等。此外，在商业智能领域，还需要选择合适的ETL工具和OLAP工具，例如Informatica和Eassbase。 2. **编写高效的程序代码**：良好的程序设计对于数据处理至关重要。程序应当具备高效算法、合理的处理流程以及完善的异常处理机制等特性。 3. **数据分区操作**：通过将数据按照特定属性（如时间）进行分区，可以显著提高处理速度并降低系统负载。不同数据库系统支持的分区方式可能有所不同，但核心思想相似。 4. **建立广泛的索引**：对于大型数据表来说，建立适当的索引可以极大地提升查询效率。根据具体需求创建合适的索引类型（如组合索引），并在合适的时候删除和重建索引以优化性能。 5. **建立缓存机制**：合理设置缓存大小有助于改善整体处理速度。例如，在处理大量数据时，可以根据实际情况调整缓冲区的大小。 6. **加大虚拟内存**：当物理内存不足时，可以通过增加虚拟内存的方式来解决问题。例如，在多个磁盘分区上分配额外的虚拟内存空间。 7. **分批处理**：将大规模数据分成若干个小批次分别处理，然后再将处理结果合并。这种方式可以简化处理流程，避免因数据量过大而导致的问题。 8. **使用临时表和中间表**：在处理过程中合理使用临时表来保存中间结果或预处理数据，有助于减轻主表的负担，并使整个处理流程更加高效。 9. **优化查询SQL语句**：通过对SQL查询语句进行优化，比如合理使用连接条件、选择性高的筛选条件等，可以极大提高查询效率。处理海量数据需要综合运用多种技术和策略。只有深入了解这些技术和策略，并结合具体场景灵活运用，才能有效地管理并充分利用这些宝贵的资源。

海量的数据处理问题，对其进行处理是一项艰巨而复杂的任务。原因有以下几个方面：

一、数据量过大，数据中什么情况都可能存在。如果说有 10 条数据，那么大不了每条去逐一检查，人为处

理，如果有上百条数据，也可以考虑，如果数据上到千万级别，甚至过亿，那不是手工能解决的了，必须

通过工具或者程序进行处理，尤其海量的数据中，什么情况都可能存在，例如，数据中某处格式出了问题，

尤其在程序处理时，前面还能正常处理，突然到了某个地方问题出现了，程序终止了。

二、软硬件要求高，系统资源占用率高。对海量的数据进行处理，除了好的方法，最重要的就是合理使用

工具，合理分配系统资源。一般情况，如果处理的数据过 TB 级，小型机是要考虑的，普通的机子如果有

好的方法可以考虑，不过也必须加大 CPU 和内存，就象面对着千军万马，光有勇气没有一兵一卒是很难取

胜的。

三、要求很高的处理方法和技巧。这也是本文的写作目的所在，好的处理方法是一位工程师长期工作经验

的积累，也是个人的经验的总结。没有通用的处理方法，但有通用的原理和规则。那么处理海量数据有哪

些经验和技巧呢，我把我所知道的罗列一下，以供大家参考：

一、选用优秀的数据库工具现在的数据库工具厂家比较多，对海量数据的处理对所使用的数据库工具要求

比较高，一般使用 Oracle 或者 DB2，微软公司最近发布的 SQL Server 2005 性能也不错。另外在 BI 领域：

数据库，数据仓库，多维数据库，数据挖掘等相关工具也要进行选择，象好的 ETL 工具和好的 OLAP 工具

都十分必要，例如 Informatic，Eassbase 等。笔者在实际数据分析项目中，对每天 6000 万条的日志数据进

行处理，使用 SQL Server 2000 需要花费 6 小时，而使用 SQL Server 2005 则只需要花费 3 小时。

二、编写优良的程序代码处理数据离不开优秀的程序代码，尤其在进行复杂数据处理时，必须使用程序。

好的程序代码对数据的处理至关重要，这不仅仅是数据处理准确度的问题，更是数据处理效率的问题。良

好的程序代码应该包含好的算法，包含好的处理流程，包含好的效率，包含好的异常处理机制等。

三、对海量数据进行分区操作对海量数据进行分区操作十分必要，例如针对按年份存取的数据，我们可以

按年进行分区，不同的数据库有不同的分区方式，不过处理机制大体相同。例如 SQL Server 的数据库分区

是将不同的数据存于不同的文件组下，而不同的文件组存于不同的磁盘分区下，这样将数据分散开，减小

磁盘 I/O，减小了系统负荷，而且还可以将日志，索引等放于不同的分区下。

四、建立广泛的索引对海量的数据处理，对大表建立索引是必行的，建立索引要考虑到具体情况，例如针

对大表的分组、排序等字段，都要建立相应索引，一般还可以建立复合索引，对经常插入的表则建立索引

时要小心，笔者在处理数据时，曾经在一个 ETL 流程中，当插入表时，首先删除索引，然后插入完毕，建

立索引，并实施聚合操作，聚合完成后，再次插入前还是删除索引，所以索引要用到好的时机，索引的填

充因子和聚集、非聚集索引都要考虑。

五、建立缓存机制当数据量增加时，一般的处理工具都要考虑到缓存问题。缓存大小设置的好差也关系到

数据处理的成败，例如，笔者在处理 2 亿条数据聚合操作时，缓存设置为 100000 条/Buffer，这对于这个级

别的数据量是可行的。

六、加大虚拟内存如果系统资源有限，内存提示不足，则可以靠增加虚拟内存来解决。笔者在实际项目中

曾经遇到针对 18 亿条的数据进行处理，内存为 1GB，1 个 P4 2.4G 的 CPU，对这么大的数据量进行聚合操

作是有问题的，提示内存不足，那么采用了加大虚拟内存的方法来解决，在 6 块磁盘分区上分别建立了 6

个 4096M 的磁盘分区，用于虚拟内存，这样虚拟的内存则增加为 4096*6 + 1024 = 25600 M，解决了数据

处理中的内存不足问题。

七、分批处理海量数据处理难因为数据量大，那么解决海量数据处理难的问题其中一个技巧是减少数据量。

可以对海量数据分批处理，然后处理后的数据再进行合并操作，这样逐个击破，有利于小数据量的处理，

不至于面对大数据量带来的问题，不过这种方法也要因时因势进行，如果不允许拆分数据，还需要另想办

法。不过一般的数据按天、按月、按年等存储的，都可以采用先分后合的方法，对数据进行分开处理。

八、使用临时表和中间表数据量增加时，处理中要考虑提前汇总。这样做的目的是化整为零，大表变小表，

分块处理完成后，再利用一定的规则进行合并，处理过程中的临时表的使用和中间结果的保存都非常重要，

如果对于超海量的数据，大表处理不了，只能拆分为多个小表。如果处理过程中需要多步汇总操作，可按

汇总步骤一步步来，不要一条语句完成，一口气吃掉一个胖子。

九、优化查询 SQL 语句在对海量数据进行查询处理过程中，查询的 SQL 语句的性能对查询效率的影响是

非常大的，编写高效优良的 SQL 脚本和存储过程是数据库工作人员的职责，也是检验数据库工作人员水平

的一个标准，在对 SQL 语句的编写过程中，例如减少关联，少用或不用游标，设计好高效的数据库表结构

等都十分必要。笔者在工作中试着对 1 亿行的数据使用游标，运行 3 个小时没有出结果，这是一定要改用

程序处理了。

十、使用文本格式进行处理对一般的数据处理可以使用数据库，如果对复杂的数据处理，必须借助程序，

那么在程序操作数据库和程序操作文本之间选择，是一定要选择程序操作文本的，原因为：程序操作文本

速度快；对文本进行处理不容易出错；文本的存储不受限制等。例如一般的海量的网络日志都是文本格式

或者 csv 格式（文本格式），对它进行处理牵扯到数据清洗，是要利用程序进行处理的，而不建议导入数据

库再做清洗。

十一、定制强大的清洗规则和出错处理机制海量数据中存在着不一致性，极有可能出现某处的瑕疵。例如，

同样的数据中的时间字段，有的可能为非标准的时间，出现的原因可能为应用程序的错误，系统的错误等，

这是在进行数据处理时，必须制定强大的数据清洗规则和出错处理机制。

十二、建立视图或者物化视图视图中的数据来源于基表，对海量数据的处理，可以将数据按一定的规则分

散到各个基表中，查询或处理过程中可以基于视图进行，这样分散了磁盘 I/O，正如 10 根绳子吊着一根柱

子和一根吊着一根柱子的区别。

十三、避免使用 32 位机子（极端情况）目前的计算机很多都是 32 位的，那么编写的程序对内存的需要便

受限制，而很多的海量数据处理是必须大量消耗内存的，这便要求更好性能的机子，其中对位数的限制也

十分重要。

十四、考虑操作系统问题海量数据处理过程中，除了对数据库，处理程序等要求比较高以外，对操作系统

的要求也放到了重要的位置，一般是必须使用服务器的，而且对系统的安全性和稳定性等要求也比较高。

尤其对操作系统自身的缓存机制，临时空间的处理等问题都需要综合考虑。

十五、使用数据仓库和多维数据库存储数据量加大是一定要考虑 OLAP 的，传统的报表可能 5、6 个小时出

来结果，而基于 Cube 的查询可能只需要几分钟，因此处理海量数据的利器是 OLAP 多维分析，即建立数

据仓库，建立多维数据集，基于多维数据集进行报表展现和数据挖掘等。

十六、使用采样数据，进行数据挖掘基于海量数据的数据挖掘正在逐步兴起，面对着超海量的数据，一般

的挖掘软件或算法往往采用数据抽样的方式进行处理，这样的误差不会很高，大大提高了处理效率和处理

的成功率。一般采样时要注意数据的完整性和，防止过大的偏差。笔者曾经对 1 亿 2 千万行的表数据进行

采样，抽取出 400 万行，经测试软件测试处理的误差为千分之五，客户可以接受。还有一些方法，需要在

不同的情况和场合下运用，例如使用代理键等操作，这样的好处是加快了聚合时间，因为对数值型的聚合

比对字符型的聚合快得多。类似的情况需要针对不同的需求进行处理。海量数据是发展趋势，对数据分析

和挖掘也越来越重要，从海量数据中提取有用信息重要而紧迫，这便要求处理要准确，精度要高，而且处

理时间要短，得到有价值信息要快，所以，对海量数据的研究很有前途，也很值得进行广泛深入的研究。

一般来说第 7 种方案是最常用的，有的主要就是使用第 7 种方案，选择的余地也非常的大，不只是俺月，

日，年，也可以按周等等划分，灵活性较高

而面对大量数据的处理一般都是分批次处理，之前我做一个文本分类器，面对 1g 多的索引（索引 1g 多，

但是分类时需要的数据就大得多了），40-50 分钟就可以跑完所有分类：

一是分批操作。

二是给 jvm 回收内存的时间，比如每次 20w 的数据进行分类，完成之后睡眠一段时间，每睡眠一端时间就

手动 gc 一次。

剩余13页未读，继续阅读

资源推荐

资源评论

cnbeta2012

粉丝: 5
资源: 43

如何处理海量数据.pdf

大数据量海量数据处理.pdf

海量数据处理策略.pdf

海量数据处理分析.pdf

如何处理海量数据

海量数据处理优化方案.pdf

海量数据处理面试题.pdf

海量数据的处理及优化.pdf

大数据量,海量数据 处理方法总结.pdf

海量数据存储解决方案.pdf

大数据量，海量数据 处理方法总结.pdf

基于MatLab的海量数据处理方法.pdf

海量数据处理方法共3页.pdf.zip

基于人工智能的海量数据处理技术研究.pdf

基于云计算的业务海量数据处理方法.pdf

达梦应战海量数据处理.pdf

基于分布式的海量数据处理架构研究.pdf

mapreduce海量数据并行处理总结.pdf

论文研究-基于分布式的海量数据处理架构研究 .pdf

海量遥感数据实时处理技术.pdf

基于数据流的桥梁健康监测海量数据处理.pdf

面向海量数据处理的数据密集型计算发展研究.pdf

基于云计算技术的分布式网络海量数据处理系统设计.pdf

海量数据的处理及优化.docx

海量数据_处理方法总结

海量数据大课学习笔记.pdf

大数据量，海量数据 处理方法总结

大数据 海量数据 处理方法总结

最新资源

大数据量,海量数据处理方法总结.pdf

大数据量，海量数据处理方法总结.pdf

大数据量，海量数据处理方法总结

大数据海量数据处理方法总结