基于CORBA的并行海量数据处理系统研究涉及的关键技术包括分布对象计算技术、海量信息系统、并行数据库技术、事务处理中间件等。
在信息技术的快速发展背景下,数据库领域对于处理大量数据的联机事务处理和复杂查询操作的能力要求越来越高。传统的数据库系统面临日益加重的工作负载和急剧膨胀的数据规模,已经达到上百GB甚至TB级别。这种情况下,传统的数据库系统扩展能力、接入能力以及查询效率往往难以满足需求,尤其当数据规模扩大时,系统性能往往急剧下降。
针对上述问题,研究者设计并实现了一个基于分布对象计算技术CORBA(Common Object Request Broker Architecture,公共对象请求代理体系结构)的并行海量数据处理系统。CORBA是由对象管理组织OMG(Object Management Group)提出的一种应用软件体系结构和对象技术规范,其核心是一套标准的语言、接口和协议,用以支持异构分布应用程序间的互操作性以及与平台的独立性。
并行数据库技术是目前存储和管理海量信息比较有效的技术手段。全球各大主流数据库厂商在新产品中都声称提供了对海量数据库VLDB(Very Large Database)的支持,其中支持的数据量已经达到TB级别。对VLDB的支持并不仅仅是数据库系统的数据量大小,更体现在对数据库系统的全面管理能力上,比如日常管理、数据加载、数据查询、索引建立、运行性能等,并且需要支持大量的用户连接和大的工作负荷。只有在保持良好运行性能的基础上,数据库系统才能构成超大型数据库应用系统。
传统的商业并行数据库系统的扩展能力、接入能力和查询效率通常不是太理想。因此,研究者通过采用CORBA中间件技术构建了一个新的海量信息事务处理系统,实现了数据的并行加载和并行查询。这个系统具有高效率、平台无关性和在线可扩展性等优点,为海量数据处理提供了新的解决方案。
在该系统中,数据并行加载是指数据能够同时从多个数据源加载到系统中,通过并行处理的方式提高数据加载的速度;数据并行查询则是指对系统中的数据进行查询时,能够将一个查询任务分解为多个子任务,分配到不同的计算资源上,从而加快查询处理的时间,减少耗时。
综合来看,基于CORBA的并行海量数据处理系统研究为解决传统数据库系统在处理海量数据时所面临的性能瓶颈问题,提供了一个新的研究方向和实施案例。这项研究对于未来构建能够高效处理海量数据的大规模信息系统具有重要的参考价值和指导意义。