论文研究-面向服务的空间数据挖掘体系结构研究 .pdf

所需积分/C币:9 2019-08-16 15:22:14 291KB .PDF
43
收藏 收藏
举报

面向服务的空间数据挖掘体系结构研究,胡斌,陈正阳,随着对地观测手段、空间数据获取方式以及计算机技术的迅速发展,使得各种地理空间数据资源日益丰富,但是,这些数据资源中所蕴涵的�
国武技文线 http://www.paper.edu.cn 格上执行数据挖掘任务,应该是简单而透明的,不需要知道网格的内部结构和操作过程、冈 络特征及数据资源的物理存储位置。这些都由网格数据虚拟服务层来完成。(8)安仝和数 据的保密性。在许多数据挖掘应用中,安全性和保密性是非常主要的4。网格服务层为为 SDM系统提供了用户认证,数据的保密性和安仝性措施。知识发现的特定安仝服务,比如 对敏感嶔据的过滤等不是依靠网格中间件,而是应用网格数据挖掘服务米完成。(9)支持 OLAP。该体系结构必须允许对数据仓库进行互操作和在线分析处理服务(OLAP)。数据 挖掘和OLAP是两个相互补充的方法,如果两者结合,会产生强大的高级数据分析解决方案。 22数据访问和数据中介服务 网格环境下的SDM体系结构设计的一个最重要方面就是数据访问和集成模型以及实 现该模型的服务规范。数据访问服务实现对本地数据库和异地网格数据仓库的访问,而数据 中介服务为数据挖掘服务提供了集成的分布式数据(参见图1)。 DB Spatial Data Mining Data Access Service and mediation DBS Service DBS 图1数据访问,数据中介和空问数据挖掘服务 221数据访问服务 在网格环境下进行空间数据挖掘,数据库的分布可能冇在不冋情况。下面就数据库分布 的各种不同情况分别讨论数据访问服务的实现方式。 (1)单个数据资源。这种情形非常简单,所有数据集都集中存储在一个物理位置。当 对数据进行访问时,必须提供一个统一的服务接口,对用户来说,位置、平台和网络都是透 明的,底层技术细节已经被抽象出米。所使用的技术在体系结构中都是开放的,并且支持协 议和数据资源的扩展需求。当服务与数据资源绑定后,它提供相应的元数据和机制对数据进 行访问。元数据中包含了对物理数据资源的结构、支持的查询语言、当前状态和工作量等的 描述。我们把实现上述功能的纠件称为包( Wrapper)。 2)水平分割的联邦数据资源。这种情形下,对于解决特定问题所需要的数据分散存 储在不同的位置,但这些数据在结构和语义上是一致的。因此,数据访问服务必须对物理位 置分布但模式·致的数据进行透明处理。例如,设D={D1D2…,Dn}是·个数据集,它们具有 相冋的模式S;=am=(a1,a2…,3m)。数据访间服务需要与数据集D绑定,但是提供一个全局的 单数据资源描述(S;)。数据的物理分惻对高层服务米说是透叨的,这意味着数据访问服 务需要对n个数据资源进行査询,并把査询结果集成一个完整的目标数据集。我们把实 现上述需求的的组件称为中间件( Mediator)。 (3〕垂直分割的联邦薮据資源。在这种情况下,存在一个通用的标示号(ID)来明确标 示每个属性分块,但各属性集分布存储在不同的位置。比如,在个人档案资料管理中 个位置可能存放了个人的某本信息Re=( D, education, salary),而在另一位置则存放了他们使 用的操作系统和编程语言R=(I,os, plang,利用这些数据我们可以预测个刚毕业的net 程序员的收入情况。一般来说,在n个不同的数据库中,就有n个模式表S1=(IDa11mx)…, 国武技记文往线 http://www.paper.edu.cn (ID,an1,,a1m),利用中闸件构成个虚拟关系表,该表是各个了集的超集S=S1x.xSn 然后数捃访问服务与这些数捃资源绑定并提供一个对S"的仝局单一数据资源描述。 (4)模式异构的联邦数据资源。对中间件米说,最难处理的是在结构和设计上异构的 数据资源。特别是当属性的语义相冋而名称、描述、应用或数据类型不同时,处理难度会大 大增加。这时我们不能运用语义网或语义网格的方法,先从语义上描述数据资源,然后采用 元数据的方式处珒。我们可以在逻辑和物理模式间建立映射机制,这种机制能够将对逻 辑资源的请求转换为对物理资源的响应,并将所査询的物理资源结果以逻辑资源的形式返回 给上层服务。一般来说,中间件需要处理像(S1=(a1,a2),S2=(a1a3)∧a2=a3的情形(∧合取)。 222数据中介服务 数据中介服务采用中间件服务来实现,它负责把所有数据资源连接起来并集成为一个统 的虚拟数据资源(Ⅴ irtual Data Source,wS)视图,并把查询请求传送给各数据集,然后运 用多种方式对结果进行组合和传输。在此过程中,需要组织并处理许多信息。一方面,我们 可以提供相关数据源的元数据信息,比如数据逻辑视图,所采川的技术,支持的查询语言等 这些信息是OGSA的数据访问与集成( Data Access and Integration,DAI)支撑软件所必需的, 它可以隐藏数据资源的分布性和异构性;号·方面,元数据的结枃可以预先给定,这对枃造 VDS相当重要。图2给出的映射模式由XML所描述,主要解决逻辑名称到物理地址的转换, 其中GSDM衣示网格环境下的空间数据挖掘名域空间。 GSDM: Activity id=Middleware"version=1.0> <GSDM: Param id-” Mapping Schema” <Src id='virtual data??> < Coming From id-” source data”src-” source dbs l” <Coming From id=source data2"src=source dbs27 <GSDM: Param> </GSDM: Activity> 图2具有相冋模式的两个数据库的数据共同组成统一虚拟数据映射表 图2描述了利用中间件服务构成虚拟数据资源的过程和特征。因为这样的服务要经常利 用或者非常复杂,所以可以把它冇放到网格中间件工厂( GridMiddlewareFactory)里,该T厂 主要提供中间件服务。考虑有时数据是高度动态集成,所以在系统运行时也可以把元数据信 息事先存放到网格中间件工厂里。 数据中介服务在实现过程中,首先识别相关的数据资源,然后生成査询执行讣划以获取 所需要的数据。查询计划负责把初始的查询请求进行分解,以代表对各数据源的查询:同时 它还要指定中间件所要完成的其它处理工作,比如数据的定制、合并或连接等。查询结果的 传输视情况而定,对于少量的数据,可以直接通过XML响应,而数据量大的情形可以用 GridfTP等专门的传输机制来完成 23空间数据挖掘服务 按照空间数据资源的分布特点,基于网格的数据挖掘可以分为集中式和分布式两种情况 13在完成控掘任务过程中,我们可以充分利用己有的可用数据挖掘⊥具 国武技文线 http://www.paper.edu.cn 231集中式空间数据挖掘服务( Centralized Spatial Data Mining Service, CSDMS) 这是一种最简单的情形,从把数据载入內存,然后执行相关的算法,并把结果呈现给用 户,所冇这些数据挖掘任务都在个节点上完成,该节点可能具有串行或并行计算能力。数 据挖掘服务对具体的执行过程进行了抽象,但是对用户来说,他可以自由选择相关的算法和 工具。服务在设计和体系结构上是开放的,以便于容易扩展。通常,在整个知识发现过程中, 数据挖掘前要进行数据清理、集成和选择等操作。其中数据集成由数据中介服务来完成,而 数据挖掘服务也可以做些数据预处理任务,如数据的清理,选择感兴趣的属性等。 图3对集中式空间数据挖拙的结构和可能的工作流做」初步闻述。首先用户进程向注册 中心査询可用的数据挖掘匚厂。数据挖掘L厂按OGSA服务数据单元( Service data element) 的结构提供∫相关的元数据和状态数据,这样当注册中心返回若干工)的网格服务句柄时, 用户可以选择其中最佳的个。然后用户详细说明他的数据挖掘任务并把任务描述传送给数 据挖掘服务工丿。工丿分析用户的任务并在适当的主机上创建数据挖掘服务实例,同时按用 户的任务描述引导服务工作。服务实例通过联接到数据资源,选择所需的算法,并安排执行 计划准备执行。一旦用户触发服务执行操作,CSDM开始处理指定的任务。 当然,在服务创廷成功后,用户可以订阅由服务所发布的消息。这样用户就可以得到他 所感兴趣的消息,如执行进度,状态,错误信息等。数据挖掘执行过程中,利用服务数据单 元来管埋作业生命期、进度、状态信息和执行计划,学习过程完成后,结果又以XML的形 式侏存在服务数据单元里。用户可以用OGSA预定义的查询机制访问服务数据单元的内 在图3的体系结构中,数据的加载可以直接通过JDBC或数据中介服务或OGSA-DAI 三种方式,同时,为了避免重复开发已有的算法,在这里使用了开源的数据挖掘系统weka, 它由新西兰的 Waikato大学研发而成 终端用户接凵 订阅/发布 (I)查我数 服务数据 据服务⊥厂 单元(4)行 (2)任务提交 数据挖掘服 务注册中心 Weka 3)创建 数据中介服务接L JDBC接口 OGSA-DAI按凵并引导数据控掘服 务工厂 Globus4-OGSA容器 SOAP bc 数据中介 OGSA数据 空问数据库1 服务 空间数据库2 访问与集成 空间数据库3 图3集中式空间数据挖掘体系结构图 国武技文线 http://www.paper.edu.cn 23分布式空间数据挖掘服务 Distributed Spatial Data Mining Service, DSDMS) 图4描述了该类服务的体系结构。其中一个数据挖掘节点作为主控节点,以接受用户提 交的数据挖掘任务,并将任务分配给其它了节点及协调了节点的工作。主控节点和其它的工 作子节点由服务工厂所创建。工作子节点通过访问数据中介服务或直接访问分布式数据资源 而获得数据。至于网格上分布式数据挖掘应川中的工作流,可以运用XML技术米描述其在 不同数据集上进行并行式挖掘的多重服务实例,以及各工作流之间的协调关系、通信方式 生命期管理、所耑要的服务质量、硬件和软件等。图5给出了个简单的创建分布式工作流 实例描述。 终端用户接凵 服务数据 单元(4)执行训发布 、(1)耷找挖掘 服务工 (2)仟务提交 空间数据挖掘主节点 数据挖掘服 务注册中心 控制孕协调 数据挖掘服 数据挖掘节点1 数据挖掘节点2 数据挖掘节点3 3)创务工 建并弓 Globus4-OGSA容器 导 空间数据库1 数据中介 服务 空问数据厍2 图4分布式空间数摭挖掘体系结构图 <GSDM Workflow> GSDM: Activity xsi type=GSDM: CreateDSDMSActivity <GSDM: Create Master Service id” ctr1? service-”sls2s3”> GSDM: Create Slave service id-”sf” dataset-"dsl” nodetype- linux"/> < GSDM: CreateSlaveService id-”s2” dataset-ds2” nodetype'linx"/> <GSDM: Create SlaveService id-”s3” dataset-"ds3” nodetype-inux"> GSDM: Activity> / GSDM: Workflow> 图5分布式数据挖掘环境下主从节点实例的创建 3.结论 利用网格技术进行空间数据挖掘,这是一个非常重要的网格应用领域,它能有效的解决 当前空间数据挖掘过程中数捃量大,计算资源短缺的瓶颈。把数据挖掘和新兴的且仍在继续 发展的网格技术这两个都具有广泛研究范围的领域集成起来,具有良好的发展前景。随着开 放的且面向服务的数据挖掘系统的不断发展,它应该能在各种具体的网格基础设施上与各砷 组件和数据集进行交互,其体系结构和设计应该具有开放性,以及建立起功能强大的数据访 问和数据中介服务 国武技文线 http://www.paper.edu.cn 本文对低层的空间数据访问方式及中介服务功能进行了分析与摧述,并对高层空问数据 挖掘服务的体系结构在OGSA的基础上做了比较深入的剖析和有意义的探索,为以后的进 步实现打下了良好的理论基础 参考文献 [李德仁,树良,史文中,等.论空间数据挖掘和知识发现[.武汉大学学报(信息科学版).2001.26(6) 491-499 [2]李德亻,王树良李德毅等.论空间数据挖掘和知识发现的理论与方法[.武汉大学学报(信息科学版) 2002,27(3):221-233 [3]HAN J, KAMBER M Data Mining Concepls and Tcchniqucs[M. San Francisco Academic Press,2001,145-176 [4] MILL ER HJ, HAN J. Geographic data mining and knowledge discovery: An overview[A]. London: Taylor and francis. 2001.3-32 [S]裴韬,周成虎,骆剑承,等.空间数据知识发现研究进展评述[J中国图象图形学报,2001,6A(9):854860 [6]海起,十到峰空间数据挖据技术研究进展[J地坦与地珥信息科学,2005,21(4):6-10 刁]李德仁关泽样.空间信息系统的集成与实现[M]武汉:武汉测绘科技大学出版社,2000 [8]李德仁论广义空间信息网格和狄义空问信息网格门遥感学报,2005,9(5):513-520 9M Cannataro, D. Talia, and PTrunfio Design of distributed data mining applications on the knowledge grid[c [10 M.Cannalaro, Talia, and P Trunfio Distributed data mining on the grid. Future Gcncralion Computcr Systems[J,2002、18:1101-112 I1]R. Moore. Knowledge-Based Grids. Technical Report TR-2001-02[R], San Diego Supercoputer Center, January 2001. 12]赵霈生,杨祟俊,刘冬林.基于网络环境的地理信息系统整合与知识发现.中国图像图形学,1999,4(11) 940~945 13] Peter Brezany, Jurgen Hofer Towards an Open Service Architecture for Data Mining on the grid[c [14 M Cannataro, D.Talia, and P. Trenfio Design of distributed data mining applications on the knowledge grid cl [15 Alon YLevy, Anand Rajaraman, and Joann J. Ordille Querying heterogeneous information sources using source descriptions[R]. In Procccdings of the Twcnty-Sccond International Con ference on Vcry Largc Databasc,1996,251-262 16]http://www.cs.waikatoac.nz/ml/weka [17 M Cannataro, D.Talia, and PTrunfio Knowledge grid: high performance knowledge discovery services on the gridR. In Second International Workshop, Denver, CO, USA 2001,38-50 Research on Architecture of Service-oriented Spatial data Mining Hu Bin Chen Zhengyang, Liu Peng I Institute of geomatics and Territory Information Engineering, Central South University, Hunan Changsha(410083 2 MilGrid Research Center, The PLA University of Science and Technology, Jiangsu Nanjing(210007) Abstract With the rapid devclopment of carth obscrvation systcm, gco-data obtaining mcans and computcr technology, various geo-data sources are very richness, but the knowledge these data sources containing has not been discovered and used efficiently. the integration of grid and spatial data mining can tackle the bottleneck of computing sources and give a good support for discovering and using knowledge that concealed in distributed spatial databases. This article mainly analyses the feature of spatial data mining architecture based on grid and give a concrete implementing model of data access service, data mediation service and spatial data mining service Keywords: grid technology; spatial data mining; data acccss service; data mediation scrvicc; data mining servIce 作者简介:胡斌(1978-),男,硕上硏究生,现主要研究间数据控掘和空间信息网格。

...展开详情
试读 7P 论文研究-面向服务的空间数据挖掘体系结构研究 .pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
一个资源只可评论一次,评论内容不能少于5个字
您会向同学/朋友/同事推荐我们的CSDN下载吗?
谢谢参与!您的真实评价是我们改进的动力~
关注 私信
上传资源赚钱or赚积分
最新推荐
论文研究-面向服务的空间数据挖掘体系结构研究 .pdf 9积分/C币 立即下载
1/7
论文研究-面向服务的空间数据挖掘体系结构研究 .pdf第1页
论文研究-面向服务的空间数据挖掘体系结构研究 .pdf第2页

试读结束, 可继续读1页

9积分/C币 立即下载 >