没有合适的资源?快使用搜索试试~ 我知道了~
Twitter推荐算法WTF翻译版
需积分: 14 16 下载量 114 浏览量
2013-07-11
09:40:45
上传
评论
收藏 615KB DOCX 举报
温馨提示
试读
16页
WTF who to follow 是Twitter的用户推荐算法,网上资料不多,笔者提供一份对英文原版论文的粗翻。
资源推荐
资源详情
资源评论
WTF---The Who to Follow Service at
Twier
1 引言
Twier—同新浪微博一样,用户可以在 Twier 平台上发布 140 字
以内的 Twieets,关注他的用户可以浏览并评论,用户可以根据兴趣
参加各种讨论组。目前 Twier 拥有 2 亿用户,每天有 4 亿的
twies。
WTF 的推出是为了帮助新老用户发现“关系”。WTF 可以向用户推
荐用户可能感兴趣的其他用户或讨论组,这些推荐基于共同的兴趣、
共同的关注以及其他一些因素。FaceBook 和 LinkedIn 也有同样的一
些服务。
WTF 从两方面来考虑推荐哪些用户,“有兴趣”和“相似”,一方面,
如果一个用户关注了@espn,那么说明这个用户可能对运动感兴趣;
另一方面,如果两个用户同时关注了@espn,则说明这两个用户是
相似的。
下面会讲到以下几部分的内容:
1、 Twier 用户图谱存储:在一个单台计算机,而不是 hadoop 集
群。
2、 WTF 的核心及工作流程:Cassovary,图谱处理引擎。
3、 用户推荐算法:SALSA(Stochas&c Approach for Link-Structure
Analysis)
2 Twier Graph
Twier Graph 用顶点表示用户,用有向边表示”follow(关注)”
关系,用户的“follower(粉丝)”可以接收到用户发送的 Twies,但
是用户不会收到对方的 Twies,这是一种典型的非对称关系图谱。
同 Facebook 跟 Linkedin 不同,这些典型的 SNS 网络是以”friendship”
作为关系,是对称的,彼此可以接收到对方的信息。
当然 Twier 也存在由社会关系建立起来的双向关系,但是更多
的关系建立在共同的兴趣上,比如同时关注大数据、运动 等一类的
Twier。
Twier 对目前活跃用户的关系图谱进行了统计,到 2012 年 8 月
为止,大约有 200 亿条边(即关系)存在于 Twier 图谱中,有超过
1000 个用户拥有 100 万以上的粉丝,超过 25 个用户拥有 1000 万以
上的粉丝。
Twier 图谱存放在基于 Mysql 的数据库—FlockDB 上,FlockDB 存
储了整个 Twier 图谱。主要用户低延迟、高吞吐量的读写以及一些
求交的操作。每秒中大概要提供几十万的读操作,几万的写操作。
不过基于 Mysql 的 FlockDB 并不适合用户推荐算法,用户推荐算
法并不是简单的 put/get 数据,它的查询是基于自连接的大量的系
列的查询。因此 WTF 的首要目的就是创造一个不同于 FlcokDB
的数据处理平台。这类似于 OLTP 跟 OLAP 的区别,OLTP 即联
机事务处理,就是我们经常说的关系数据库,意即记录即时的增、
删、改、查,就是我们经常应用的东西,这是数据库的基础。
OLAP 即联机分析处理,是数据仓库的核心部心,所谓数据仓库是
对于大量已经由 OLTP 形成的数据的一种分析型的数据库,用于处
理商业智能、决策支持等重要的决策信息;数据仓库是在数据库应
用到一定程序之后而对历史数据的加工与分析。随着数据技术的发
展,现在数据的框架基本上已经将 OLTP 和 OLAP 区分开来,因
此 WTF 也采取了相同的构架,FlockDB 作为一个 OLTP 的角色,
负责处理对用户图谱的一个短时间的操作。WTF 需要发展另外的
框架,来扮演 OLAP 的角色。
3 图谱存储框架
WTF 项目从 2010 年春天开始,由 3 个工程师负责,当时
由于没有一个好的用户推荐算法,非常影响 Twitter 的用户体验,
因此 WTF 项目需要尽可能快的完成。Twitter 的 3 个工程师在
2010 年夏天就完成了这个项目,使他们能够这么快成功的原因是
因为他们采取了一个在当时看起来很奇怪的想法:将所有的图谱数
据存储在单个服务器上。
2 个问题:
1、 用不用 hadoop?
Hadoop 从出现以来得到了很大的应用,当时 Twitter 也已
经有了自己的基于 Hadoop 的数据分析平台。不过尽管 Hadoop
在处理大数据上很有优势,但它并不适合程序模型。
EXAMPLE:PageRank Compute
标准 Hadoop 的做法:
1、将顶点按当前序列存储为邻接表,保留节点当前的 PageRank
值。
剩余15页未读,继续阅读
资源评论
Darkingp
- 粉丝: 5
- 资源: 8
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功