论文研究-一种基于云计算的动态可扩展应用模型.pdf

所需积分/C币:5 2019-09-12 04:33:40 607KB .PDF
7
收藏 收藏
举报

用户特征的描述方式是实现个性化搜索算法的核心因素。针对传统的基于关键词向量空间模型的用户特征描述过于简单,不能全面描述用户兴趣的缺陷,将folksonomy的结构与本体概念的清晰语义相结合,提出一种多层用户特征描述方式。从用户兴趣主题、用户间关联两个不同角度,从用户生成的标签、标记的文档及主题等不同层次建立用户特征描述模型,并将其应用于个性化搜索过程的方式进行分析。同时对个性化搜索的结果评价方式、资源类型对用户特征及搜索结果的影响进行了讨论。在Delicious和Flickr两种不同类型数据集上的实验表明,所提出用户特征模型能够有效提高个性化搜索结果的性能。
袁柳,张龙波:个性化搜索中的用户特征模型研究 2011,47(15 m为用户u所感兴趣的主题(例如 Sports、 Arts Programming 表1算法屮符号含义 等),可通过属丁该主题的标签词汇描述,因此有 符号 tf: m) W矩阵,行表示用户,列表示文档。形为用户u为文档d分配的标签个数 矩阵行、列均表小用户。R为用户u与用户的相关系数 01,-{(,,,d∈A1A,∈Tmd∈D TU 标签向量,表示用户u所用过的标签列表 其中Tn表示属于主题m的标签词汇集合,D。为属于主题 TD 标签向量,表示所有用于标记文档d的标签列表 主题向量,文档所包含的以及用户所感兴趣的所有主题集合 m的文档集合。 Q矩阵,行表示用户,列表示用广兴趣主题。Q,表示用广u对第个主题感兴趣 关系分量 Relation可描述为一个M维向量: 矩阵,行表示文档,列表示主题。P表示文档d包含第j个主题 Relation=<r.r 所包含主题的过程,可以采用任何能够发现词汇中所蕴含的 分量r表示用户u与u,间的关联程度(t≠l,)。 隐含主题的算法。考虑到Web文栏仍然是信息搜索的主要对 可以看出,该用户特征描述模型从不同角度、不同层次对象,本文利用ODP对文档和标签按照主题进行分类,将ODP 用户特征进行了概括,这种多维多层用户特征描述如图1所所定义的概念名称及层次关系用于标签及文档主题的命名, 示。这种描述方式清晰地表达了用户、标签、文档及主题间的规则如下:若文档d存在于概念C所包含的资源列表中,则概 关联:一个用户可以使用任意标签标记任意文档;一篇文档可念C为d的主题;若标签t用来标记属于概念C下的文档,则概 包含任意个主题;用户的兴趣可以设计若T个不同的主题;同念C为t的主题;同时概念C满足条件:不存在C的子概念C′, 一标签词汇可以有多种语义,语义取决于相应文档的主题。使得文档d或标签t可用C′命名。这保证了始终采用概念层 就用户兴趣而言,将兴趣分解为主题标签词汇两级,主题次中较低层次的概念(即相对特化的概念)对文档和标签进行 般通过领域概念、分类目录名称等相对稳定的方式描述;每个分类,并支持用户同时对多个主题感兴趣的需求。对于ODP 主题可包含任意数量的标签词汇,标签的词汇语法受约束且中没有列出的web文档,利用 Wordnet提供的语义距离计算 易变,即使在同一领域内,不断产生的新事物新名词会促使机制,选择文档标签与ODP中最接近的概念作为其主题。l 新标签的岀现,焦点、热点话题或技术的不断更替使标签呈现 stance(C,D判断个体/是否为概念C的实例,本文中根据主 出随时间变化的现象。因此将形式各异且容易变化的标签统题TC,的文档中是否含有TU中的标签,确定主题与标签间的 于主题,能够更准确地把握用户的兴趣。 如图1所示,用户兴趣和文档所包含的内容最终都统·于 关系。 4相同的主题空间。主题是相对稳定的、人们能够达成共识的 算法1用户兴趣特征生成 不同领域内的重要概念集合,因此容易形式化、规范化,使之 输入:TU、TD 具有本体的核心特性。有了本体的特性,主题空间中的自动 输出:Q、P 推理就成为可能,在此基础上,个性化搜索就可实现自动化语 1. TC= TopicGenerate(d,) 义检索的目标 2. for each Td. of d in d 3. for each TC. in Tc f e if InstanceOf(TC TD) P.=true 标签(标签2际签……际签L 6. for each To. of u. in L 7. for each TC. in TC f Instanceof(ca, t( 文档1女档2档3 文档N 9. 2=true 主题1 丰题2) 主题K 7∩W 图1多层用户特征 在算法2中, W表示用户u,所标记的文 相应的,被检索文档可描述为 档,rN从用户共同标记文档的角度计算其相似性;rr= d=< tn,tn 1n0=(01,0,…,.) opic(Q∩opic(Q , topic(Q)为用户u,所感兴趣的主题集 f.1与用户特征的opic分量具有相同形式。该形式与传统的 topi(Q)儿topi(gQ VSM文档表示方式完全兼容,只需要根据文档所属主题将值得注意的是opie()与mpi(涉及概念集合间的计 VSM中的关键词划分到不同的主题中即可,其方式同用户标算,由于概念间层次关系的存在,不同名称概念在语义上可能 签的主题分类方式。 会有重合。如果仅根据概念名称定义概念集合之间的∩运 33用户特征的生成 算,会丢失部分语义上相同的概念。例如概念“ Software”是概 综上所述,用户特征的生成过程分为两部分:用户主题特念 Computer Science”的子概念,但从概念名称上判断,两者 征的生成和用户关系特征的生成。分别如算法1和算法2所相似程度板小。因此,本文采用以下规则处理慨念集合间∩ 述。算法中符合所表示含义如表1所示。 运算。 算法1屮,rσ picgenerate()为根据文档标笭确定文档 设A、B分别为慨念集合,则概念c∈A∩B当且仅当满足 22 2011,47(15) Computer Engineering and Applications计算机工程与应用 如下条件之 排序的角度对所提出的用户特征描述模型的有效性进行验 (1)c∈A∧c∈B; 证。该方案的优势在于不需要对已有的搜索方法及过程做任 (2)c∈A∧c’∈B,满足ccc'; 何修改,并且能够从用文档主题和用户兴趣出发,直接对文档 (3)c∈BA3c’∈A,满足cgc' 内容和用户兴趣间的相似性进行判定。查询结果重排序的方 其中csc′表示概念c包含于概念c′。规则(2)说明,如案如算法3 果概念c属于集合A,并且在集合B中存在概念c,c是c'的子 算法3查询结果重排序 概念(即c,c′之间存在“ C C'”的层次关系),则可认为 输入:用户n,的查询条件q,查询结果文档集合Dg c∈A∩B。类似的,可得到规则(3)的含义。 输出:用户u,的个性化查询D 对于概念集合之间的∪运算,其运算规则与绎典的集合间 I. for each dk in Da t U运算相一致并不会导致概念的丢失,故本文不作特殊处理。 2. score=IntereSim(P 2) 考虑到语义上的重复不会导致用户感兴趣主题的丢失,因此 3. for each 在运算结果中可能出现的语义上重复的概念对本文不会有大 if (Ri >0 and Tagged(dp,u) 的影响。用户的相关性表现在所用的标签词汇和所感兴趣的 ur=R 概念这两方面,因此对这两方面影响因素取相同的权重。故 加权系数a、B在本文的算法实现中分别取值为0.5,0.5。 6. Score, =avg ur: ) 7. score,=aScore, +B'Uscore 算法2用户关系特征生成 输入:W,Q 8.} 9. Rankby Score( Dg) 输出:R 7 Score从文档主题和用户兴趣主题的相似性出发,对文 for each u. in U 2. for each 档进行评价,本文中计算方式为 3. r,=SimN w, topic(PHotopic(@ Interesim topic(PRUtopic(e,) rr= Simt(Q, 2)) 5. Rii-arN+ brr; opic(P4为文档d所包含的主题集合,概念集合间的运算规 则同3.3节。 Score从用户间关联角度出发评价文档,即如 果相互有关联的用户同时标注了同一篇文档,则这篇文档的 4基于多维多层用户特征的个性化搜索算法 排序应相对靠前。 Tscore与 Score进行加权求和得到文档 将所提出用户特征用于搜索过程以实现个性化搜索的方的最终排序参考值,以、B分别为 scorer与 Score的加权系 案有三种,如图2所示。图2(a)描述了第一种方式,即设计新数。 Rankbyscore(q)根据评价结果的数值,对查询结果重新 的搜索算法,把用户特征嵌入其中,这需要对已有的搜索引擎排序,本文实验中分别取值0.8、0.2。在对文档进行重排序时, 算法做较大的改变;第二种方式如图2(b),对传统搜索算法得用户主题和文档主题之间的相似性是主要考虑的因素,用户 到的查洵结果进行重排序,排序过程中考虑用户特征对次序之间的相关性对其影响较小。通过实验发现,a'、F分别取值 的影响;图2(c)说明的第三种方式,根据用户特征重写查询条为0.802时,个性化搜索的效果较明显。如果a、的取值发 件,用个性化的查询条件进行搜索。可以看出,用户特征是实生变化,也可以反映出用户特征在个性化搜索中的意义,但在 现个性化搜索结果的核心要素。 程度上稍弱一些。由于本文研究重点关注用户特征的描述方 查询条件 (查询条件 式在个性化搜索中的作用,因此选取能够突出反映用户特征 影响的参数进行计算,将其结果与传统的搜索结果进行比较。 耷询条件 搜索引擎(用户特征)查询重置 5实验 用户特征 个性化 搜索引擎 查询结果 )1数据集介绍 本文选择来自 Delicious和 Flickr两种不同类型的标签数 个性化结果「查询结果(用户特征)搜索引擎 重排序 据验证所提出的用户特征描述在个性化搜索中的作用。其中 Delicious数据集利用网站提供的 RSS Feed机制获取,主要包 性化结 个性化结果括用户所建立的标签及相关资源的信息。 Flickr数据集则采 (a)方式1 (b)方式2 (c)方式3 用 MIR Flickr2008,一个具有高质量标注信息的照片数据 图2用户特征用于搜索过程的方式 集,适于自动标注、语义检索等研究成果的评价。 Delicious和 事实上,目前的搜索引擎能够获取大量的查询结果,但是Fick数据集的最大差异于 Delicious允许用户为大多以资 需要用户从结果列表中逐个筛查,选择有价值的结果。很少源访问者的身份添加标签,而 Flickr中标签的建立者同时也是 有用户能够遍历所有的查询结果,如果符合要求的结果在查柑应资源的提供者,对资源语义的理解相对准确。表2分别列 询结果列表中的排序靠前,用户就比较容易发现,从而认为该出了实验所用的 Delicious和 Flickr数据集相关信息。其中标 次登询是成功的。本文采用图2(b)的方案,主要从査询结果注总量表示不同的<用户、标签集合、资源>个数;不同标签数 袁柳,张龙波:个性化搜索中的用户特征模型研究 2011,47(15 23 量为从词法角度分析可不相同的标签个数;用户标记资源范性弱的文档排序下降,都有助于用户发现符合要求的查询。 围[1,30表示数据集中的用户最少标记1个资源,最多标记30由于很难找到一种方式能够有效地判定文档的排厅位置,因 个资源:υ elicious数据集的文档覆盖范围相对更广阔一些,因此通过统计排名变化的文档总量来观察搜索结果的变化。指 此采用ODP的三级分类目录共1171个概念作为资源主题空标(3)可分別用于个性化搜索与非个性化搜索结果中的文档, 间, MIR Flick中对用户标笭已有一些归类,根据已存在的分通过相应指标值的比较反映个性化搜索的性能,如果与用户 类,本文将用户自定义的30种分类及ODP一级日录的17分类关联紧密的文档排序靠前,则MRR值较大,反之则较小。 相结合,共产生67种分类作为资源主题空间。 为了验证用户特征对个性化搜索的影响,必须选择一种 表2 Delicious数据集与 MIR Flickr数据集基本信息 非个性化搜索方法作为基准,与所提出的个性化搜索进行比 MIR Flick 较。就本文研究来讲,对搜索系统的性能没有绝对的要求,因 用户数量 12030 9862 此选择何种搜索技术并不重要,本文关注的是对其搜索结果 标注总量 1313903 25000 根据用户特征进行重排序,通过排序的变化验证所提出的个 不同标签数量 76000 1386 性化搜索方法的性能。为了方便程序实现,本文使用 Lucene 资源数 144500 25000幅图像 资源平均标签数 14.5 作为文档检索的基准。 用户标记資源范围 1,30 1,41l 53实验结果及分析 资源所包含主题数 l171 本文实验建立在如下前提条件下:用户的标签数据可以 兴趣特征分量最大长度 近似表示用户的查询关键词。一般来说,用户为资源添加标 关系特征分量最大长度 N/A 标签建立时间段2009-11.10days2007-03-2008-06 签的目的之一是为了方便再次查找,因此该前提是合理的。 逐一以用户为每个资源添加的标签作为查询条件,分析个性 52评价方法 化搜索的性能。对于 Delicious数据集,实验选择了拥有书签 量化用户特征对搜索结果的影响是本文研究的目标,本数量最多的2000个用户,每个用户至少标记20个文档,总共 文以满足用户需求的Web文档在査询结果中的排列名次对所产生约50000个查询。根据查询的长度,又将其分为1-标签 提岀方法进行评价。设符合用户需求的文档d在个性化搜索查询、2-标签查询和≥3-标签查询三类。对于每类查询,比较 结果中的排序记为Rank(d,在非个性化搜索结果中的排序记分别以不同的用户特征描述方式实现的个性化搜索方法的性 为Rank,(D)。如果Rank(d)<Rank(),说明个性化搜索结果能。考虑到排名对用户发现所需文档的影响,对于每个查询 列表中d的位置更容易被用户发现则可认为是有效的个性化仅分析查询结果中排名前1009文档,方法是:如果文档同时4 搜索,反之则说明用户特征不能对搜索结果产生影响。然而, 出现在个性化搜索结果和非个性化搜索结果中,则比较其在 文档d个性化排序 Rank(a)的真实值是未知的,但是就相关 结果中的排名,即R、R、MRR的计算均以排名在前100中的 相同文档排序为基础。表3是 Delicious数据集上用户特征对 查询结果的平均排序而言,个性化搜索应该优于等于非个性个性化搜索结果的影响。 化。因此,比较查询结果中排序上升的相关文档数量,可直观 观察表3可以看出,兴趣主题比简单标签更能够准确描述 反映个性化搜索的性能。综上所述,设D为查洵结果集合,本 用户特征,对于文档的个性化搜索来讲,基于兴趣主题问量模 文引入以下指标对个性化搜索结果进行评价: 型的个性化策咯具有更好的性能;考虑用户间的关联对于提 (1)R={4∈ GRande(d)<Rank(),表示引入用户特征高个性化搜索的性能有一定的效用。就不同查询长度的个性 后排序上升的文档数量; 化结果而言,查询关键词个数越少,用户特征对搜索结果的作 (2)R={d∈ DRand,(a)>Rank,(d)},表示个性化搜索结用就越明显。查询关键词少意味着用户的要求较为宽泛,用 果中排序下降的文档数量; 户特征能够对查询要求的语义进行一定程度的约束,从而将 (3) MRR= 表示搜索结果文档排序倒数搜索范围限定在用户可能感兴趣的资源内。对于标签词汇向 d dD Rank(d) 量描述的用户特征,相应的文档也采取相同的表示方式。 的平均值,该指标的优势在于可以表现出排名变化幅度的重 Flickr数据集相对于 Delicious数据集规模较小,在处理方 要程度,如排名从100上升到90显然不及从第10位上升到第1式上也存在差异。在 Flickr中用户搜索的主要对象是图像,图 位对结果的影响程度大。 像内容的主题由图像提供者的标签信息确定。由于允许用户 其中指标(1)和(2)从文档排序的变化显示用户特征对搜对图像进行分类管理,不同用户对同一分类名称的描述可能 索结果的影响,与用户关联紧密的文档排序上升,与用户关联存在差异,为了避免这种差异对搜索带来的影响,本文将不同 表3 Delicious数据集上不同用广特征对个性化搜索结果的影响 用户特征 1-标签 2标签 >3-标签 描述方式 R MRR R R MRR R MRR 标签词汇向量 <兴趣>475241440.0735460041390.0733453838970.0712 <兴趣,关系>541347790.07625567498200796521644260.0741 兴趣主题向量 兴趣>589949080.0742546348910.0729549746310.0735 <兴趣,关系>665258670.0779598850430.0768582956220.0758 基准( Lucene) 0.0706 0.0724 0.0699 24 2011,47(15) Computer Engineering and Applications计算机工程与应用 用户的图像分类与ODP概念相结合作为用户兴趣主题空间,述,这样将有助于概念推理的自动完成,实现个性化搜索的自 如5.1节所述。用户分类名称与ODP概念名称间的映射通过动化。本文提出的个性化搜索仅考虑了Wcb文档,全面考虑 主要通过计算编辑距离来确定,荇用户没有定义分类,则根据对文档、图像、视频等不同类型资源的处理是个性化搜索必须 图像标签与DP概念的相似性确定其所属主题。本文提出考虑的问题。此外,本文研究在实验过程中深刻体会到,由于 的用户间的关系特征利用不同用户对相同资源的标记来识目前还没有一个标准的个性化搜索评价机制及数据集,给研 别,然而在Fick系统中很少有不同用户能够提供完全相同的究成果的检验带来较大的困难,也不利于相关研究成果的交 图像,并且如果在本实验中考虑相同图像的判别将消耗大量流,该方面研究也是个性化搜索领域应该关注的问题。 的计算开销,因此在 Flickr数据集上的用户特征描述将不考虑 用户间的关联特征。由于不对图像内容做更深入分析,将基参考文献: 于查询关键词与图像标签匹配的搜索方法作为该数据集的比[1] Yi Xing, Allan J Evaluating topic models for information re 较基准。表4展示了以其中2000个用户标签作为查询条件, trieval[C]/Proceedings of CIK MO8, 2008: 1431-1432 不同用户特征描述方式下的个性化搜索性能。 [2] Bonino D, Corno F Ontology driven semantic search[J]. WSEAS Transaction on Information Science and Application, 2004, 1 (6) 表4 MIR Flickr数据集上不同用户特征对个性化搜索结果的影响 1597-1605 用户特征 1-标签 2标签 ≥3-标签 [3 Micarelli A, Gasparetti F, Sciarrone F, et al. Personalized search 描述方式 MRR R MRR RR MRR 标签词汇向量3894120.06114113790.06283713880.0611 on the World Wide WeblC/Brusilovsky P, Kobsa A, NejdI 用户自定义 LNCS 4321: The Adaptive Web: Methods and Strategies of Web 概念亡题向量 Personalization. 2007 兴趣主题向量ODP)5044190056522460686464050.06294] Shen dou, Pan Rong Query enrichment for Web-query classifica- 基准( Lucene) 0.0597 0.0021 0.0614 tion[J]. ACM Transactions on Information Systems, 2006, 24(3) 320-352 表4与表3的结果在奋询长度与用户特征的关系上表明 [5 Schafer J B, Frankowski D, Herlocker J, et al. Collaborative filter- 了相同的结论。尽管 Flickr数据集中的实验没有考虑用户间 ing recommender systems[ C]/Brusilovsky P, Kobsa A, Nejdl W 关系,但结果也清晰地说明了用户兴趣特征描述方式对个性 LNCS 4321: The Adaptive Web: Methods and Strategies of Web 化搜索结果的影响是至关重要的。表4中的用户自定义概念 Personalization. 2007 主题是指用户定义的、并且使用率较高的30个概念。ODP兴(6Gmel., Shepitsen A Personalization in folksonomies based on 趣主题向量是更准确、更抽象的兴趣描述形式,因此与用户自 tag clustering[C]//proceedings of the 6th Workshop on Intelli 定义概念主题向量相比,能够更好地改蓍个性化搜索性能。 gcnt Tcchniqucs for Wcb Personalization and Recommender Sys- 2008:37-4 6结论与进一步工作 [7] Carman M J, Baillie M Tag data and personalized Information 对Web2.0环境下个性化搜索过程中用户特征的描述形式 Retrieval[cy/Proceeding of SsMO8, 2008: 27-3 [8 Xu Shengliang, Bao Shenghua Exploring folksonomy for person- 及应用方式进行了研究,提出了一种多层次用户特征描述模 alized search c] /Proceeding of SIGIro8, 2008: 155-162 型,能够同时从用户兴趣和用户间关联两方面对用户特征进 9] Vallet D, Cantador I Personalizing Web search with folksonomy 行概括。实验验证了所提出模型在个性化搜索中的效用。除 based user and document profiles[C]//Proceeding of ECIR2010 了能够全面描述用户特征,该模型的最大优势在于,可以方便 2010,5993:420-431 地与已有的基于语义的检索技术相结合,实现个性化语义搜110」 Wetzker r, Zimmermann c.Itag, you tag: Translating tags for ad 索。例如,一些基于内容的文档检索方法、文档潜在语义分析 vanced user models[ C]/Proceeding of WSDMI0, 2010: 71-80 以及文档分类聚类方法中都对文档内容在概念主题等高抽 Gauch s, Sperelli M User profile for personalized information 象层次上的描述方式进行了研究,这些方法可用于文档主题 access[C]/Brusilovsky P, Kobsa A, Nejdl WThe Adaptive Web 向量和用户兴趣向量的建立。此外,本文所提出的个性化搜 Methods and Strategies of Web Personalization, 2007 索方式在充分利用现有搜索技术优势的基础上实现个性化浆12] Jiang Xing, Tan A IL. Learning and inferencing in user ontolo gy for personalized semantic Web search[J]. Information Scienc 务,不需要对传统搜索过程做任何修改,在建立纯粹的个性化 es,2009:27942808 搜索系统条件还不完全具备的条件下,本文所提出方式在个 [13 Huiske M J, Lew M SThe MIR flickr retrieval evaluation[C]// 性化的搜索结果和传统的搜索技术之间实现了有效的调和。 Proceedings of Miro, 2008 39-43 进步的研究工作将主要围绕个性化语义搜索的实现展14 Yuan Liu, Li Zhanhua, Chen Shiliang. Inference rules-guided on- 开。一方面要进一步深入研究文档主题和用户兴趣的建立技 tology alignment to semantic Web[JJ.Journal of Computational 术;另方面考虑为用户特征实现·定程度的形式化语义描 Information System, 2006, 2(3): 1085-1090

...展开详情
试读 6P 论文研究-一种基于云计算的动态可扩展应用模型.pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
一个资源只可评论一次,评论内容不能少于5个字
weixin_38744270 欢迎大家使用并留下宝贵意见
2019-09-12
您会向同学/朋友/同事推荐我们的CSDN下载吗?
谢谢参与!您的真实评价是我们改进的动力~
  • 至尊王者

    成功上传501个资源即可获取
关注 私信 TA的资源
上传资源赚积分or赚钱
    最新推荐
    论文研究-一种基于云计算的动态可扩展应用模型.pdf 5积分/C币 立即下载
    1/6
    论文研究-一种基于云计算的动态可扩展应用模型.pdf第1页
    论文研究-一种基于云计算的动态可扩展应用模型.pdf第2页

    试读结束, 可继续阅读

    5积分/C币 立即下载 >