第
28
卷第
5
期
2007
年
10
月
河南科技大学学报:自然科学版
Journal
of
Henan
University
of
Science
and
Technology:
Nalural
Science
Vo
l.
28
No.5
Oct. 2007
文章编号:
1672 - 6871 (2007 ) 05 - 0036 - 04
XML
数据本体抽取算法研究
陈哲,魏衍君
(商丘职业技术学院计算机系,河南商丘
476
∞
0)
摘要
:XML
只描述了文挡的结构,却没涵盖数据的语义,而描述数据语义的本体语言不能直接对
XML
数据进
行表述。针对这一问题,本文给出了从
XML
到
RDF
Schema
的转换算法,使用
RDF
的正式传输格式
RDF/
XML
作为媒介,通过编程以相当直接的方式把存储在标准
XML
中的数据转换成
RDF
,为语义
Web
环坡下的
智能处理提供了帮助。
关键词:数据格式:文件结构
;XML;RDF;
本体;抽取
中图分类号:
TP311
文献标识码
:A
0
前言
XML(
Extensible Markup
Language)
作为
Web
数据格式描述的标记语言,可以用于描述各种文件结
构。可以将其强大的数据检索能力应用于检索引擎;将其灵活性和扩展性应用于异构应用系统间的数
据共享;以其是一种开放的自我描述方式,定义数据结构;并能在描述数据内容的同时突出对结构的描
述应用于许多商务文档等
[1
-5]
。然而,
XML
却没涵盖数据语义的描述。在语义
Web
环境下的智能处理
中,对语义的理解是必须的要求。而描述数据语义的本体语言不能直接对
XML
数据进行表述,所以,研
究从
XML
数据获取本体信息的方法是十分必要的。
近年来,国内外对本体建设的方法研究颇多,
Mike
Ushold
等人提出了骨架法
[6]
提出的背景是在企
业本体的基础之上,也是目前最为大众所接受的方法。
Alexander
Maedche
等人提出了循环获取法
[7]
该方法采用一种环状结构的开发思路,类似于软件工程中的原型法思想。
Mi
沁
cheal
Grun
由
1ge
盯
r
和
Mark
S
Fox
在
TOVE
项目中提出了企业建模法[叫,
TOVE
项目的目标是建立一套为商业和公共企业建模的集成
本体。目前的本体大多构建于具体的项目领域之上,构建的方法也是针对具体的项目提出的。本体建
设的方法学还没有成熟的理论作指导
[6]
。在参考大量文献的基础上,本文研究了
XML
数据的本体抽取
算法,通过编程以相当直接的方式把存储在标准
XML
中的数据转换成
RDF
,为语义
Web
环境下的智能
处理提供了帮助。
1
XML
到
RDF
Schema
的转换算法
RDF( Resource Description
Framework)
是由
W3C
提出的一套标准化的元数据语义描述规范,能够解
决如何采用
XML
( Extensible Markup
La
nguage
可扩展性标记语言)语法元二义性地描述各种资源对象
的问题,使得所描述的资源元数据信息成为人机可读的信息。
XML
采用树形表述文档之间的结构关
系,使用树节点表达文档的格式,每个文档有唯一的根元素,元素之间的嵌套结构构成元素之间的父子、
兄弟关系。而
RDF
采用三元组的表示形式[剖,其基本对象类型有
3
种:资源(
Resources)
、陈述
(
Statements)
、属性(
Properties)
。因而可以制定一些规则,确定
RDF
中的类资源、属性资源以及它们之
间的关系,建立起
XML
Schema
到
RDF
Schema
的转换关系问]。算法如下:
(1)将整个
XML
文档的
URI
作为第一个
Statement
的
Subject
设为当前资源;
(2)
从
XML
节点标签树的根节点开始深度遍历
XML
文档的节点,根据定义好的
RDF
模型对当前
遍历到的节点进行名称查找,根据查找结果:
还(该节点为类资源)
then
goto
(3)
作者简介:陈
哲(1
963
- )
.男,何南太康人,副教授,主要研究方向为数据库技术和信息安全.
收稿日期
:2
∞
7
-05
-20