论文研究-基于用户-微博图分析的自适应Twitter用户排名 .pdf

所需积分/C币:10 2019-08-23 09:45:55 477KB .PDF
12
收藏 收藏
举报

基于用户-微博图分析的自适应Twitter用户排名,马凤龙,张宪超,Twitter是当今最流行的微博平台之一,本文的研究问题是Twitter上的权威用户排名。Twitter具有大量的用户,并含有丰富的信息资源。权威用
国武技论文在线 http:/www.papcr.cdu.cn 29的 00 Nurnber of friends 图2关注者分布 70 Fig 2 Friend Distribution 图2是关注者的分布情况,粉丝关注不同的是,在2000处分布出现的小的变化,这是 因为 Twitter公司之前限制了用户的最大关注个数(2000),所以在图2中关注者为2000的 人数出现了异常。通过分析图2可以发现,大部分用户的关注者数量在20左右,这是因为 75用户在注册 Twitter账户的时候,系统会自动推荐20个用户给新用户。 12转发关系分布 与图1和图2相似,图3和图4描述的转发关系的分布,其中图3是转发入度( Indegree 的分布,也服从幂律分布。与图1的尺度相比,转发入度的分布更接近于Web的真实分布。 这是因为转发是用户根据自己的意愿主动发起的动作,与Web的超链接很相似:用户对 80 tweets的内容感兴趣,并且对用户信任,才会生转发行为,用户之间建立·条有向边。 104 图3发起转发分布 Fig 3 RclwccLing Distribution 国武技论文在线 http:/www.papcr.cdu.cn 85 HHHHHHH+ tHHHHH+ 图4被转发分布 Fig 4 Retweeted distribution 9013 TWeets发布频率 Tweets的发布频率可以反映用一个用户的活跃程度。如果用户绎常发布一些重要的信 息,那么他的粉丝可能急剧増长,与此相反,如果用户经常发布厂告信息或者长吋间不发布 信息,那么他的影响力应该是下降的 TTTTTT 右 10 LI 图5 Tweets发布频率 Fig 5 Tweets frequency 2自适应 Twitter用户排名算法 1002.1用户-微博图分析 在引言部分,我们已经介绍了 Twitter中存在两种实体以及四种边关系,我们利用其中 4 国武技论文在线 http://www.papcr.cdu.cn 的三种边( Follow, Publish和 Retweet)米综合计算用户的权威性。我们的算法基于以下观 (1)如果川户的粉丝中,有很多权威用户,那么该用户很有可能是权威用户; 105 (2)如果用户的微博被很多权威用户转发,那么该微博的质量应该会很高; (3)如果用户经常发布高质量的微博,那么该用户的权威性应该很好 基于这些观察,我们建立」用户徽博图( Users- Tweets Graph)的简图,如图6所小, 将用户和微博分为两层架构。在用户层,用户之间为 Follow关系,在 Tweets层,微博之间 是 Retweet关系,在两层之间是 Publish关系,囚此该用户微博图模型可以表示 Twitter的网 110络结构。 Users 8( Tweets 图6用户微博图 Fig 6 User-Tweets Graph 115 根据用户之间的 Follow关系,我们可以利用 Pagerank3算法计算用户的权威度,然后 通过 Publish边将用户的杈威度平均分给用户所发布的微博,这样就可以将 Users层的权威 度转移到 Tweets层。将 Users层传下来的权威值,作为Twes层的初始值,在 Tweets层再 利用 PageRank算法进行迭代,用户的微博勍会产生新的权威度,将该权威度相加在传递给 120 Users层。经不断的循环迭代,就可以得到用户的权威度,同时也可以得到微博的权威度 下面我们将正式定义该算法。 22自适应 witter用户排名算法 令用户-微博图UG=(,E),其中={,vn},E={E,EP,E2},V代表用户 层的所有用户,Vr代表徵博层所有的微博,Ep表示用户之间的Folw关系,Ep表示用户 125层与微博层之间的Pubi关系,Eg代表微博层的 Retweet关系。基于以上定义有: (1)在用户层计算用户的权威值 根据 PageRank算法的定义,有 a×P1x+(1-a) 其中,V代表用户层的用户权威值,P代表用户层的慨率转移矩阵,S是随机跳转 130矩阵。下面给出P和Su的定义 假设∈Bend(V0),即用户VC关注了V,则V到V的概率转移值为 国武技论文在线 http://www.papcr.cdu.cn (2) 其中,|F7lnd(V)是用户P所有关注者的个数。 (3) 135 其中,|v代表用户层的用户总个数。 (2)将用户层的权威值传递给微博层 对于用户层的任一用户V,在微博层均具有一个集合{C),2,…,Jm}与之对应, 即用户发的的黴博集合。通过在用户层的计算,将权威值传递给微博层,作为初始值,对于 仃一微博结点VD∈Vr,有初始值: (4) 其中n是用户发布微博的个数。 (3)在微博层计算微博的权威值 与公式(1)相似,根据 PageRank定义,有 Vr=a×P1×Vr+(1 (5) 145 其中,V代表微博层的微博杈威值,P代表微博层的概率转移矩阵,Sη是随机跳转 矩阵。 对于P矩阵中的值每一行中只有一个是1,即转发边,其余均为0。对于随机跳转矩阵 有 其中,|r代表微博层的微博总个数 (4)将微博层的权威值传递给用户层 第4步是第二步的逆过程,将微博层的传递值作为用户层的初始值,有: ∑ (7 重复以上4个步骤,进行循环迭代,直全收敛,就可以得出用户的综合排名。具体实现 155过程见表1。 3实验结果及分析 3.1评价标准 本文所用的对比实验为在用户层的 PageRank用户排名,采用的标准为: N2(PageRank(V( )-STURankVu) AC(O)=∑ 其中,AVG(O,)代表桶i中被转发用户排名提升半均桶数量;N代表用户层的 PageRank 国武技论文在线 http://www.papcr.cdu.cn 表1自适应 Twitter用户排名算法 Tab 1 Self-tuning twitter User Rank algorithm 自适应 witter用户抻名算法 输入:用户微博图UG=(,E),a=0.85 输出:用广权威值V,微博威值V 迭代 迭代 执行公式(1) 直至收敛 对于每一个用户 执行公式(4) 代 执行公式(5) 直至收敛; 对于每一个用户0: 执行公式(7) 直至收效 用户排名桶中被转发川户的总数: Pagerank(V)代表用户V(在用户层的 PageRank l65排序中分到的桶编号; STRUnk(v)用户v在 STURank排序中分到的桶编号。这种 评价标准经常用于Spam用户检测,本文的实验与Spam用户检测相似,所以采用此标准 32实验结果及分析 图7和图8给出了桶的数量分别是50和3872的用户排名提升情况。通过图可以分析, 整体的排名趋势是在上升的,也就是我们的算法可以提高转发量比较大的用户,因为他们的 170微博质量好,所冇权威度增加。但是可以观察到,排名靠前的川户的平局提升,也有低于0 的,也就是说,整体趋势是上:升的,但是排在前面的用户也会相应的降低排名。 图750个桶 Fig 7 50 Buckets 国武技论文在线 http://www.papcr.cdu.cn 图73872个桶 ig.73872Bu 180 结论 本文提出了 Twitter用户排名的新算法,自适应 Twitter用户排名 STURank,该算法不 仅考虑了川户之间的关注关系,同吋考虑了用户发布黴博,用户转发微博等行为,利用了 Twitter的仝部信息。实验结果表明,该方法可以有效的提升被转发用户的排名。 5致谢 感谢张宪超敩授多年米的指导与栽培,感谢实验室同学们关心与帮助。 参考文献]( References) [1] JAVA A, SONG X, FININ T, TSENG B. Why we twitter: understanding microblogging usage and communitics[ C]. Proccedings of the 9h WebKDD and lst SNA-KDD 2007 workshop on Wcb mining and social network analysis. 2007.56-65 [2] WENG J, LIME, JIANG J, HE Q. I'witterrank: finding topic-sensitive influential twitterers[C]. Proceedings of the third aCm international conference on Web search and data mining, 2010, 261-270 [3] YAMAGUCHI Y, TAKAHASHI T, AMAGASA T, KITAGAWA H. Turank: Twitter user ranking based on 195 uscr-Lwcct graph analysis[C]. cb Informalion Systcms Enginccring--WISE 2010, 2010. 240-253 [4] BRODER A, KUMAR R, MAGHOUL F, RAGHAVAN P,RAJAGOPALAN S, STATA R, TOMKINS A WIENER, J Graph structure in the web[J]. Computer networks, 2000, 33(1): 309-320 5 PAGE L, BRIN S, MOTWAIN R, WINOGARD'TThe PageRank citation ranking: bringing order to the web R.Stanford InfoLab, 1999 200 [6]ZHANG X, WANG, Y, MOU N, LIANG W. Propagating Both Trust and Distrust with Target Diffcrcntialion Tor Combating Wcb Span [c]. Twcnly-Finth AAAI Confcrcncc on Arli ficial Intclligcncc, 2011

...展开详情
试读 8P 论文研究-基于用户-微博图分析的自适应Twitter用户排名 .pdf
立即下载 身份认证VIP会员低至7折
一个资源只可评论一次,评论内容不能少于5个字
您会向同学/朋友/同事推荐我们的CSDN下载吗?
谢谢参与!您的真实评价是我们改进的动力~
  • 至尊王者

关注 私信
上传资源赚钱or赚积分
最新推荐
论文研究-基于用户-微博图分析的自适应Twitter用户排名 .pdf 10积分/C币 立即下载
1/8
论文研究-基于用户-微博图分析的自适应Twitter用户排名 .pdf第1页
论文研究-基于用户-微博图分析的自适应Twitter用户排名 .pdf第2页

试读结束, 可继续读1页

10积分/C币 立即下载