⼤数据推荐系统架构 推荐系统介绍 推荐系统介绍 当下,个性化推荐成了互联⽹产品的标配。但是,⼈们对推荐该如何来做,也就是推荐技术本⾝,还不甚了解。为此,好学的你肯定在收藏 着朋友圈⾥流传的相关⽂章,转发着微博上的相关讨论话题,甚⾄还会不断奔⾛在各种⼤⼩⾏业会议之间,听着⼤⼚职⼯们讲那些⼲货。我 知道,这样碎⽚化的吸收,增加了知识的同时,也增加了焦虑。因为技术的不平等⼴泛存在于业界内,推荐系统也不例外。推荐系统从搜索 引擎借鉴了不少技术和思想,⽐如内容推荐有不少技术就来⾃搜索引擎, 由 Amazon 发扬光⼤的。推荐系统也是现在热门的⼈⼯智能分⽀ 之⼀,但凡⼈⼯智能类的落地,都需要具备这⼏个基本元素才⾏:数据、算法、场景、计算⼒。推荐系统也不例外,⽽刚好,现在的时代, 这些元素的获得成本相⽐⼗年前已经⼩了很多。未来随着各种硬件设备越来越智能,万物互联得越来越紧密,⼈们的个性化需求、场景的多 样性、数据的复杂性都对推荐系统提出了更⾼的要求。 推荐系统概括⼀下,其实就是以下的的⽬标主要包括: ⽤户满意性:⾸当其冲的,推荐系统主要就是为了满⾜⽤户的需求,因此准确率是评判⼀个推荐系统好坏的最关键指标。 多样性:虽然推荐系统最主要还是满⾜⽤户的兴趣,但是也要兼顾内容的多样性,对于权重不同的兴趣都要做到兼顾。 新颖性:⽤户看到的内容是那些他们之前没有听说过的物品。简单的做法就是在推荐列表去掉⽤户之前有过⾏为的那些内容。 惊喜度:和新颖性类似,但新颖性只是⽤户没看到过的但是确实是和他⾏为是相关的,⽽惊喜度是⽤户既没有看过和他之前的⾏为也不 相关,但⽤户看到后的确是喜欢的。 实时性:推荐系统要根据⽤户的上下⽂来实时更新推荐内容,⽤户的兴趣也是随着时间⽽改变的,需要实时更新。 推荐透明度:对于⽤户看到的最终结果,要让⽤户知道推荐此内容的原因。⽐如,"买过这本书的⼈同时也买过"、"你购买过的xx和 此商品类似"。 覆盖率:挖掘长尾内容也是推荐系统很重要的⽬标。因此,推荐的内容覆盖到的内容越多越好。 基于这些⽬标,推荐系统包括四种推荐⽅式: 热门推荐:就是热门排⾏榜的概念。这种推荐⽅式不仅仅在IT系统,在平常的⽣活中也是处处存在的。这应该是效果最好的⼀种推荐⽅ 式,毕竟热门推荐的物品都是位于曝光量⽐较⾼的位置的。 ⼈⼯推荐:⼈⼯⼲预的推荐内容。相⽐于依赖热门和算法来进⾏推荐。⼀些热点时事如世界杯、nba总决赛等就需要⼈⼯加⼊推荐列 表。另⼀⽅⾯,热点新闻带来的推荐效果也是很⾼的。 相关推荐:相关推荐有点类似于关联规则的个性化推荐,就是在你阅读⼀个内容的时候,会提⽰你阅读与此相关的内容。 个性化推荐:基于⽤户的历史⾏为做出的内容推荐。也是本⽂主要讲述的内容。 其中,前三者是和机器学习没有任何关系的,但却是推荐效果最好的三种⽅式。⼀般说来,这部分内容应该占到总的推荐内容的80%左右, 另外20%则是对长尾内容的个性化推荐。 推荐系统架构 推荐系统架构 online部分架构 部分架构 核⼼模块 业务⽹关,推荐服务的⼊⼝,负责推荐请求的合法性检查,组装请求响应的结果。 推荐引擎,推荐系统核⼼,包括online逻辑,召回、过滤、特征计算、排序、 多样化等处理过程。 数据路径 1、请求的刷新从gateway,经过流量分配模块,传到业务gateway,业务gateway⽀持http,tcp(使⽤thirtf协议或者protobuf 协议) 等多种类型接⼝; 2、⽤户⾏为数据,从gateway到Flume agent,然后到kafka,为后⾯online,realtime userprofile部分的提供实时数据,也为offline部 分的数据存储系统提供数据。 offline部分架构 部分架构 本⽂从⼤框架上介绍推荐系统架构,在许多公司⾯试中会给你⼀个推荐或者数据挖掘的问题,⽐如让你简单设计⼀个feed流推荐系统,所以 需要对推荐系统的整体框架要了解。下⾯是⼀个推荐系统的主要部分 从框架的⾓度看,推荐系统基本可以分为数据层、召回层、排序层。 数据层包括数据⽣成和数据存储,主要是利⽤各种数据处理⼯具对原始⽇志进⾏清洗,处理成格式化的数据,落地到不同类型的存储系统 中,供下游的算法和模型使⽤。 sessionlog:对原始数据进⾏清洗合并,sessionlog⼀般就是清洗合并后的数据,后续的算法和统计都是根据sessionlog进⾏再加⼯。 userprofile:对⽤户属性和⾏为等信息进⾏采集和统计,为后续算法提供特征⽀持。 itemDoc:对视频、商品等属性、曝光、点击等字段进⾏统计, 为后续算法提供特征⽀持。 召回层主要是从⽤户的历史⾏为、实时⾏为等⾓度利⽤各种触发策略产⽣推荐的候选集,对不同的策略和算法产⽣的候选集进⾏融合并按照 产品规则进⾏过滤,⼀般融合和过
- 粉丝: 166
- 资源: 3万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 哈夫曼树与哈夫曼编码.pdf
- 山西大学应用统计复试9999-99
- stm32平衡小车CUBEMX初始化.rar
- redis面试题之概述-介绍一下redis.zip
- 国家(双边)、各省、19个行业FDI+OFDI数据(1970-2020)
- 海尔统帅电视刷机数据 T50FUR 机编600000MX900 配屏V500HJ1-PE8(C7) 务必确认机编一致 强制刷机包
- 2021-2009年中国省市自贸区设立数据(已经匹配好上市公司,可以直接做DID)
- STM32F103C8T6最小系统板原理图,PCB文件ad版本Altium Designer版本工程文件
- 地磁计 电子罗盘QMC5883 HMC5883程序 差异对比
- 汉诺塔c语言递归.pdf