论文研究-基于用户反馈的OA期刊检索服务模式自动匹配方法 .pdf

所需积分/C币:5 2019-08-14 17:05:47 326KB .PDF

基于用户反馈的OA期刊检索服务模式自动匹配方法,张付志,孙奇,OA期刊在线集成需要解决的关键问题是实现不同OA期刊检索服务接口与统一检索服务接口的模式匹配。传统的模式匹配方法采用人工或半��
国武技论文在线 http:/www.paper.edu.cn 定义:标签相似庋计算函数( Label Similarity Function,LsF),用于计算检索服务接 凵中两个标签的相似度。计算方法:将标签信息 LabeD拆分为长度大于等2的若干个词组 Label1, Label2, Label3,……, Label,(每一个词必须是连续的),然后搜索所有能够在 85被匹配标签信息串 Lables中找到的词组,找出最长的词组 Label。相似度计算公式如下 LSF LabelS, label)= Labeli *2 LabelS+ Label 其中,μ abels|、 Label和 Label分别表示标签信息、字符的长度。例如, Labels=“作 2*4 者”, Label-“第作者”,LSF( Labels, Label)=-=80%。公式(1)中,LSF∈[0,1]。 显然,LSF的值越大,衣示两个标签所描述的信息越相似 90 定义: WordNet语义相似度计算函数( Wordnet Similarity Function,WSF)通过查找 WordNet语义库,综合考虑字符串在语义树上所处的深度、密度和距离因素,从语义层面计 算两个字符申之间的相似度。 定义:模式匹配库( Schema Matching Data Base,sMB),用于存储检索服务模式的 匹配项信息和候选匹配项信息的数据库 95 定义:模式字典厍( Schema Dictionary data Base,SDDB),用于存储手动匹配和自动匹 配后经过用户反馈后修正的检索服务模式匹配信息的数据库。 定义:标准化函数( Standard function,SF),用于将一个字符串按照分隔符拆分为 规整的宇符子集。拆分规则如下:首先按照一些分界符(如空格、下划线、独立的词素、发 音以及其它特殊分割符)将字符串拆分为标识符集,例如, home address可拆分为{home, 100 address; PHONumber可拆分为{PHO, Number};然后去除标识符集中没有意义的了串(例 如,如果子串的长度大于2,则将其去掉):最后将字符串中的大写字母转换为小写字母。 检索服务模式的表示 根据定义1,每一个检索服务模式都可以用一个四元组表示,每一个元组都可以用<属 性,值域>的集合来表示。根据以下四条規则,可将结构各昇的检索服务模式转换为四元组 105的形式。 (1)描述域信息元组T的转换规则。 L)根据表单的内容提取表单的id、name、 action、 charset、 method属性值,填充描述 域信息元组T中的ID、NAME、 ACTION、 CHARSET、 METHOD域。 2)根据id属性值计算措述域信息元组T中I的值 110 3)判断 action的类别,如果是相对路径将其转换为绝刈路径,重新填充描述域信息元 组T中的 ACTION的值。 (2)隐藏域元组H的转换规则。提取类型为 hidden的儿素,获取元素的name和 value 的属性值,填充隐殲域元组H中HL和HV域。 (3)约束域元组C的转换规则 115 ①如果为复杂检索,提取表单中 label元素的name,和 value的属性值,填充约朿域 集合C中CL和CV域。寻找 Label元素最近的类型为text的元素,作为 label的约束对象, 并填充约東域集合C中CT域。 如果为简单检索,提取类型为sele ton、 radio的元素,获取元素的 和 valuc属性值,填充约束域集合C中CL.和CV域。将表单中唯一的类型为text的元素作为 3 国武技论文在线 http:/www.paper.edu.cn 120集合中所有元组中CT域的值。 (4)输入域元组I的转换规则。提取类型为text的元素,获取元素的name和 value的 属性值,填充输入域元组I中的L和Ⅳ域 根据定义Ⅰ和上述规则,我们可以将结构各异的检索服务模式表示为结构统一的四元组 形式,为实现大规模OA期刊检索服务模式自动匹配奠定基础。关于检索服务模式的物理存 125储,我们采用可扩展标记语言XML来实现 下面通过一个例子来说明OA切刊檢索服务模式的表示。图1为软件学报的检索服务接 口,图2为电子信息学报的检索服务接口(部分),图3为导弹与制导学报的检索服务接口 根据定义1,软件学报的检索服务模式的ⅩML文档可以表小为图4所小的形式。因篇幅有 限,我们只给出文档的部分内容 130 当询字段中文标题检索 从1990到2011[检索 标5 英文关键词 中文摘要 甚金项目 真实姓名 生名拼晋 单位中文名 名 图1软件学报检索服务接口 Fig. 1 the query interface for Journal of softwarc 作者 检索文查中意一个作者姓名,如,张三 作者单位 检索文章中任意一个作者单位。如,大学 题目 检索文章的题目〔支持模糊查找〕 摘要 检索文章的摘要〔支持模糊查找〕 关键词 检索文章的关键词〔支持模湖查找〕 分类号 检索文章的分类号 135 图2电子信息学报检索服务接口 Fig. 2 the query interface for Journal of electronics &information technology 回区标题囗作者口关键词□要[检索 140 图3导弹与制导学报检索服务接 Fig 3 the query interface for Journal of missile and guidance 4 国武技论文在线 http:/www.paper.edu.cn <?xml ve sion=1.0 ercoding=gb2312 <form-schera> action>http://www.chinacae.cn/ch/reader/key_query.aspx<jaction> method> post/ methoc> ccharse->/charsets <name>软件学报</nme d>001<d> 检索词name= key' type -c:中烹标tynP-" electral=- KeyI idstltle e/cids <ma:ch/> 中文际题> <中文关键词tpe=" select!name=" KeyList"> id >key_word<;cid> <control>key</ccntrol> /中文关键词> <作者中文名t;e=" select' name=" KeyList" <Cid>user_real_< cid> control>k吧yc/ cEntrol> /作音中京 -<20⊥0tγpe-"slct"nme-" startYearllst" c|d>2010:cd errld.ch/> < _2010 type=select name= EndYearList> d>2010</cd 145 图4软件学报检索服务模式XML文档 Fig 4 the query schema XML file of the Journal of software 图1、图2、图3是OA期刊检索服务模式中最常见的3中结构,从形式上看这三个检 索服务模式差异很大,但是根据定义1都能表示成如图4所示的统一结构。不同之处是软件 150学报和导弹制导学报的约束域元组C的所有了集对输入域元组I中同个输入了集进行约 束,而电子与信息学报的约束域元组C的每一个子集对输入元组I的子集进行一对一约束; 其次是标识域元组'根据不同检索服务模式填充不同的值 检索服务模式的匹配方法 元组相似度计算 根据定义1,不同检索服务模式之间的匹配就是寻找检索服务模式中各元组之间的匹配 关系。通过计算两个元组之间的相似度,判断两个元组之间的匹配关系。本文对于元组相似 度的计算主要从元组的标签信息和值域信息两个方面来考虑。相似度计算如公式如下: sim= asil+βsim2 其中,siml为标签相似度,sim2为值域相似度,α和β的值釆用以下策略确定: 160 如果siml≥sim2,则a=sinl,B=1-siml 如果siml<sim2,则α=sim2,β=1-sim 例如,假设统一检索服务模式用Form(U)表示,某个OA期刊的检索服务模式用 Form(O)表示,则Form(U)和Form(O)的约束域元组的相似度为sim=siml+βsim2,其 中siml和sim2的值可通过以下两种方法来计算: 国武技论文在线 http:/www.paper.edu.cn 165 (1)通过历史匹配记录计算相似度 Stepl:查找LDB信息库,检索元组的标签信息O(CL),如果存在历史匹配记录则按 照定义3计算相似度sim1;如果不存在,则相似度sim1=0 Step2:查找SB信息库,检索元组的值域信息O(CV),如果存在历史匹配记录,则 寻找Form(U)中约束域元组的标签信息U(CV),并计算相似度sim2;如果不存在,则相 170似度sim2=0。 (2)从语义层面计算元组的相似度 Stepl:读取Form(O)的约束域标签信息O(CL),对O(CL)进行标准化,获取标识符 集T1;读取Form(U的约束域的标签信息U(CL),对UCL)进行标准化,获取标识符集 T2。 Sep2;:通过计算T1集合中每个标识符和T2集合每个标识符的相似度,确定标签O(CL 和U(CL)的相似度。计算策略:首先使用 WordNet检测T1i和12j是否为完整的单词,如 果都是完整的单词,则使用WSF计算词语相似度,如果Ti和T2其中有一个不是完整的 单词,则使用距离向量法计算相似度。标识符Tli和T2的相似度计算公式如下 LDsim(Tli, T2i simSen (Tli, T2i)= WSF(Tli, T2j) l80 标签O(CL)和U(CL)的相似度计算公式如下 ∑∑ max(simSent()+∑∑mx( simEns(IT) lingSim(Label1, Label2= T|+T4 其中,「T1和T2分别表示标识符集的长度。 模式匹配算法描述 根据定义1,每个检索服务模式可用一个四元组表示。但是在进行模式匹配时,并不是 185所有的元组都要进行匹配。例如,其中的隐藏域元组H和描述域信息元组T不用参加匹配, 需要完成匹配的是输入域元组I和约束域元组C。对于给定的检索服务模式Form(O)、 Form(U),Fom(O)到Form(U)的匹配就是寻找Form(O(①)=Form(U(D)和 Form(O(C)≥=Form(U(C)的过程。检索服务模式的自动匹配算法描述如下 算法:检索服务模式的自动匹配 输入:Form(O),Form(U 输出: HashMap(匹配序列) 1: hasnodel-Form(O); sim Thread-0.5 20: T2+-SF(hasnodc2 2:T1←SF( handel) 21:i←0:j←( 3:flag← false 22 ≤T 4: flag+findDatabase(hasnode D1) 23: sumSim0,sim[j←0 24 ≤T1 6:siml← ASimo 25: simj]← 26: Siml←0 27: sumSim--sum+Max(sim) 28: 10:nag←alse 29: lingsim-sumSim/(T1+T2) 国武技论文在线 http:/www.paper.edu.cn 11: flag-findDatabase(hasnode Al) 30 lingsim>simThread 12: flag=true 31: HashMap← lingSim 13:sim2← LDsim( 32: 14 15:si2←0 34: sim>simthread 16 17: sim+a 1+B 2 36 Hashmap←sim 18: hasnodc2←Form(U) 37 38 HashMap 19: hasnode2. hasnextl=null 190 本算法共分为四个部分:第一部分是1-3行,从检索服务模式的XML文档中读取檢索 服务模式的四元组集合,将文档节点的属性信息和标签信息进行标准化处理;第二部分是 4-16行,检索模式字典库SDDB,查看是否存在相似的模式,如果存在,则按照历史匹配记 录进行匹;第三部分是17-34行,从标签和属性两个方面计算四元组集合的每一个子集的 相似度,寻找最佳匹配项;第四部分是35-38行,将匹配结果存入模式匹配斥SMDB 195 基于用户反馈的增量式语义映射提炼方法 为了提高枍索服务模式自动匹配的精度,我们采取棊于用户反馈的増量式语义映射提炼 方法。对于每一个匹配项都采用TopN策略,即每一个匹配项都有N个侯选项匹配,按照 相似度由高到低进行排列,其中相似度最髙的匹配项为默认候选匹配项,随后釆用用户反馈 策咯不断修正匹靴的结果,以提高匹軋的精度 200 该方法的核心思想是根据用户提供的反馈信息,修止SMDB信息库。具体思路是:在 检索服务模式自动匹配过程中,采用topN策略,即每个检索服务模式的所有约束域元组C 的所有子集和输入域元组I的所有子集都有N个候匹配选项,将候选项中相似度最大的设置 为默认候选项。如果用户提交的反馈信息是“当前匹配错误”,则删除当前默认候选项,并 检索SMDB,査看是否存在这样的映射关系,如果有则刑除;否则将第二默认候选项设置 205为第一候选项,其余的依次递増,如果没有候选项,则使用默认值。如果用户提交的反馈信 息是“当前模式匹配正确”,则对SMDB信息库不做任何修改。具体实现流程如图5所示。 模式字 模式匹 功库 开始 示信 库 用户意见 删 删除驶 配 配次序 D<存在 射关系 息 模式 模式字 典库 图5用户反馈流程图 210 Fig. 5 the flow chart of user feedback 国武技论文在线 http:/www.paper.edu.cn 实验评价 数据集 在我们开发的OA期刊在线集成平台原型实验系统中,目前已集成包括软件学报、电了 215与信息学报、生态学报等110个中文OA期刊站点,分为计算机类、电子类、生物类、物理 类和其它类五大类,从中提取185个检索服务模式用于测试数据。 评价指标 我们采取模式匹配中的准确率( Precision)和召回率(Reca)指标对木文提出的方法 进行评价。准确率和召回率分别采用公式(5)和公式(6)进行计算。 ∑ 220 (5) ∑ (6) 其中,M1为匹配正确的检索服务模式的个数,N1为完成匹配的检索服务模式的个数 IM|参加匹配的检索服务模式的总数。 实验结果与分析 在给定的185个检索服务模式中,其中有175个檢索服务模式能够自动完成匹配,有 10个检索服务模式不能完成自动匹配;匹配正确的检索服务模式有150个,匹配错误的有 25个,所以总体的准确率p-150-81%,召回率R-150-857%。通过引入增量式用户反馈机制后, 185 共有20个匹配错误的检索服务模式经过用户反馈后成为正确的匹配,但是依然有5个检索 服务模式为错误的匹配。 口反馈前 口反馈后 口反馈前 口反馈后 0.85 0.75 计算机电子生物物理其他 计算机电子生物物理其他 期刊类别 期刊类别 230 图6模式兀配的召回率 图7模式匹型的准确率 Fig. 6 the recall of schema matching Fig. 7 the precision of schema matching 235 如图6为检索服务模式匹配在各个类别中召回率,其中计算机类、电子类、生物类、物 8 国武技论文在线 http:/www.paper.edu.cn 理类、和其它类别的反馈前的召回率分别为82.3%、8%、87.5%、86.3%、86.1%,反馈后 的召回率分别为98%、952%、91.6%、90.9%、97.2%。如图7为检索服务模式匹配在各个 类別中的准确率,其中反馈前的准确率分别为77.7%、82.2%、84%、82.6%、81.5%,反馈 后的准确率分别为925%、888%、88%、869、92.1%。 从图6可以看出,引入用户反馈机制后,在五大类OA期刊中召回率均在90%以上,说 明本文提出的算法具有很强的适应性。从图7可以出,在经过用户反馈后,各类OA期刊的 检索服务模式匹配的精度都有所提升,总体来看计算机类期刊和其他类别的检索服务模式匹 配的精度有明显的变化,而生物类和物理类的檢索服务模式匹配的精度变化不大 为了说明用户反馈机制对匹配精度的影响,我们将错误匹配的检索服务模式进行分类统 245计,统计结果见表1。出现匹配错误的原因有以卜三个方面:①表单元素缺少标签描述信息 或者属性信息不完整;②岀现对多的匹配;③描述信息和属性信息无法识别(例如,属性 的名字是一串毫无意义的字符等) 表1错误类别统计 250 Table 1 the statistic of error type 类别 错误匹配数量 错误分析 错误1 错误2 错误3 计算机 电子 生物 物理 87334 其它 0 321039 54011 总计 25 11 我们通过分析发现能够通过用户反馈修正的错误类别分别是第二类错误和第三类错误, 而第一类错淏不能通过用户反馈策略修正。根据表可知,生物类和物理类中属于第一类的 错误匹配所占的比例较大,而计算机和电子类中属于第二类的和第三类的错误匹配所占的比 255例较人。这也就说明了引入用户反馈机制后,计算机类和其它类的精度变化明显,而生物类 和物理类的精度变化不明显。 结论 检索服务模式的自动匹配是实现OA期刊在线集成的关键,本文在这方面进行了一些有 益的探索和尝试。文中提出了一种OA期刊检索服务模式的四元组表示模型,利用该模型可 260将结构异的OA期刊检索服务模式表示为统一的形式,以便于实现人规模OA期刊在线集 成时模式匹配的自动化。为了保证模式匹配的质量,本文提出了一种基于用户反馈的增量式 语义映射提炼方法,通过对匹配结果进行修正,以提高匹配的精度。文中提出的方法已用于 我们开发的OA期刊在线集成平台原型实验系统,取得了较好的应用效果 265参考文献 [1]孟小峰,于戈 Deep Web数据集成专刊前言[软件学报,2008,19(2):177-178. [2]Hai Hc, Wciyi Mcng, Lu Yiyao ct al. Towards Decpcr Undcrstanding the Scarch Intcrfaccs of thc Dccp Web[]. World Wide Web, 2007, 10: 133-155 270「3]姜芳艽,孟小峰,贾琳琳 Deep Web集成服务的不确定樸式匹配J.计算机学报,200831(8):1412-1421 「4]洪辉,李石君,余伟,田建伟基于语义的中文 Deep Web查询接口集成门.讣算机科学,2008:35(3)61-64 5 WuWensheng, Dona AnHai, Yu Clement. WeblQ Learing from the Web to match Deep-Web Query Interfaces In ICDe. 2006 9 国武技论文在线 http:/www.paper.edu.cn Madhavan Jayant Bemstein Philip, Chen Kuang Corpus-based Schema Matching In ICDE, 2005 Zhao Pengpeng, Lin Chao, Fang Wei et al. A Hybrid Object Matching Method for Deep Web Information 275 Integration International Conference on Convergence Information Technology. IEEE 2007, 195-198 [8 He Zhongtian, Hong Jun, Bill David Schema matching across query interfaces on the deep Web Berlin: Springer. 2008: 51-62 [9] Ritu Khare, Yuan An, Il-Yeol Song. Understanding Deep Web Search Interfaces: A Survey SIGMOD, 2010 39(1)33-40 280 10

...展开详情
试读 10P 论文研究-基于用户反馈的OA期刊检索服务模式自动匹配方法 .pdf
img

关注 私信 TA的资源

上传资源赚积分,得勋章
    最新推荐
    论文研究-基于用户反馈的OA期刊检索服务模式自动匹配方法 .pdf 5积分/C币 立即下载
    1/10
    论文研究-基于用户反馈的OA期刊检索服务模式自动匹配方法 .pdf第1页
    论文研究-基于用户反馈的OA期刊检索服务模式自动匹配方法 .pdf第2页
    论文研究-基于用户反馈的OA期刊检索服务模式自动匹配方法 .pdf第3页

    试读已结束,剩余7页未读...

    5积分/C币 立即下载 >