数据分析者面临的问题 数据日趋庞大,无论是入库和查询,都出现性能瓶颈 用户的应用和分析结果呈整合趋势,对实时性和响应时间要求越来越高 使用的模型越来越复杂,计算量指数级上升 传统技能无法应对大数据:R、SAS、SQL 在大数据分析领域,数据的体量日益庞大,对于数据的入库和查询性能提出了极高的要求,同时用户对于数据分析结果的实时性和响应时间的要求也日益严苛。此外,数据分析使用的模型越来越复杂,计算量呈指数级增长,这使得传统的数据分析技能和工具面临前所未有的挑战。R、SAS、SQL等传统工具在处理大规模数据集时可能会遇到性能瓶颈。针对这些挑战,大数据分析的案例、方法与挑战是当前IT专业人士必须深入了解和掌握的知识领域。 在进行大数据分析时,首先遇到的是数据体量的增长带来的挑战。数据量的不断膨胀不仅对存储设备的容量提出了要求,也对数据处理性能,尤其是数据入库和查询性能造成了压力。在处理大规模数据时,数据仓库和数据湖的构建成为了必要的技术路径,它们可以提供更大规模的数据存储和处理能力。 用户需求的另一个重要方面是实时性。随着业务需求的日益紧迫,数据分析结果需要及时反馈给用户,以支持决策。在金融、电信和互联网等行业中,数据的实时处理能力成为了企业竞争力的重要组成部分。为了实现这一点,需要运用流处理技术以及实时计算框架来提升数据处理的速度。 在模型复杂性方面,机器学习、人工智能等高级分析模型的应用,使得数据处理的计算量呈指数级增长。这要求我们不仅要掌握传统的统计分析方法,还要了解并能够应用更加复杂的算法和模型,比如深度学习、图计算等。 在传统技能和工具方面,R、SAS、SQL在处理大规模数据时可能会出现性能瓶颈。为此,需要采用新型的大数据技术栈,比如Hadoop、Spark等,它们提供了更为强大的分布式计算和存储能力,能够有效地处理PB级别的数据集。同时,这些新技术还支持使用Python、Scala等语言进行数据处理,这些语言在处理大规模数据时具有更好的性能和灵活性。 案例分析中,中山大学海量数据与云计算研究中心的黄志洪教授通过信令监测的应用场景,展示了大数据分析在实际中的应用。信令监测通常用于电信行业,用于监控和分析网络信令数据。在这类场景中,数据量巨大,每小时的数据写入量可以达到200GB,这对数据库服务器的硬件配置和数据库的设计提出了极高的要求。 为了应对入库瓶颈和查询瓶颈,黄教授展示了在数据库服务器上运用HP小型机、128GB内存、48颗CPU以及2节点RAC架构的解决方案。此外,还提到了存储方面采用HP虚拟化存储和超过1000个盘的设计,以支撑海量数据的存储和处理需求。 数据库设计方面,采用分区技术是解决大数据问题的重要手段之一。在案例中,数据表使用时间分区设计,最初采用按小时分区的方式,但随着数据量的增长,不得不调整为更细粒度的15分钟分区。物理存储上采用了自动化存储管理(ASM),甚至在极端情况下,每分钟就需要切换一个分区。为了提高入库效率,案例中提到使用sqlldr作为入库方式,但随着数据量的增加,入库节点也相应增多,sqlldr出现了性能问题,这表明即便是使用了高效的入库工具,当数据体量达到一定程度时,仍会面临性能瓶颈。 此外,案例还提到了在多节点同时插入数据时,出现了Bufferbusywait的问题。为解决这一问题,案例中提出放弃使用OCI(Oracle Call Interface),并采取对sqlldr进行垂直切分的方式,尽量避免多进程同时插入同一张表。在处理高并发插入时,合理安排资源和调整插入策略是保证数据入库性能的关键。 在故障诊断方面,案例中提到了AWR报告的使用,这是Oracle提供的自动工作负载存储库报告,能够帮助分析和诊断性能问题。通过AWR报告可以分析数据库的性能瓶颈,并结合其他工具如BufferCache和Latch等,寻找系统性能问题的根本原因。针对HWM(High Water Mark)冲突问题,案例中也提出了相应的解决方案和调整策略。 大数据分析的案例、方法与挑战涵盖了数据体量的增长、实时性要求、模型复杂性的增加以及传统技能的不足等多个方面。通过具体的案例分析,我们了解到了在实际操作中可能遇到的各种问题,以及解决这些问题的技术手段和方法。大数据分析不仅需要关注数据本身,更需要关注数据处理的技术和工具,以及在实际应用中可能遇到的各种挑战和解决方案。
- hahayu_62015-04-13ppt,内容太抽象了些,不过还是感谢分享!
- 粉丝: 180
- 资源: 7
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助