推荐系统实践
作者:项亮
出版社:北京图灵文化发展有限公司
ISBN:9787115281586
VIP会员免费
(仅需0.8元/天)
¥ 19.99
温馨提示: 价值40000元的1000本电子书,VIP会员随意看哦!
电子书推荐
-
百度云盘 pdf《大数据架构和算法实现之路:电商系统的技术实战》百度云盘-带标签目录 评分:
目录 c~11tcob 推荐序 1.6.4 使用 R 进行 K 最近邻分类…·37 前言 1.6.5 单机环境使用 Mahout 运行 引子 第一篇支持高效的运营 第 1 章方案设计和技术选型:分类 ·5 1.1 分类的基本概念…...... .…………….. 6 1.2 分类任务的处理流程 ……·· ……·7 1.3 算法:朴素贝叶斯和 K最近邻……·8 1.3.1 朴素贝叶斯….......……… …….. 8 1.3.2 K 最近邻……………………... 9 1.4 分类效果评估…………·…….. 10 1.5 相关软件: R 和 Mahout·………….. 12 1.5.1 R 简介………………………… 12 1.5.2 Mahout 简介……………….. 13 1.5.3 Hadoop 简介………………· 14 1.6 案例实践·……...... .… ··· ·· ·········… 17 1.6.l 实验环境设置…………….... 17 1.6.2 中文分词 ……………….. 18 1.6.3 使用 R进行朴素贝叶斯分类… 22 朴素贝 叶斯分类..... . .…......... 39 1.6.6 多机环境使用 Mahout 运行 朴素贝叶斯分类…..........…… 47 1.7 更多的思考……….. .... ................. 58 第 2 章方案设计和技术选型: 聚类… … … ..... 60 2.1 聚类的基本概念…………........….. 60 2.2 算法: K 均值和层次型聚类…… 61 2.2.1 K 均值聚类………… ... ......… 61 2.2.2 层次型聚类……………… ·· 62 2.3 聚类的效果评估…·· ……....... 64 2.4 案例实践……………………··· ···· 66 2.4.1 使用 R 进行 K 均值聚类·· .... 66 2.4.2 使用 Mahout 进行 K均值聚类… 69 第 3 章方案设计和技术选型: 因变量连续的回归分析....... 74 3.1 线性回归的基本概念…………....... 74 3.2 案例实践… 3.2. 1 实验环境设置……………….. 76 3.2.2 R 中数据的标准化……… 78 3.2.3 使用 R 的线性回归分析…… ·81 第二篇 为顾客发现喜欢的商晶: 基础篇 第 4 章方案郎,+和技术选型:搜索 . 94 4.1 搜索引擎的基本概念………………·” 4 1 1 相关性…………………………· 95 4 口及时性…·.............… 97 4.2 搜索引擎的评估.........……········· 100 4.3 为什么不是数据库……........……. 103 4.4 系统框架………………… · 104 4.4.1 离线预处理…………………… 104 4.4.2 在线查询………… ……··· 107 4.5 常见的搜索引擎实现………... 108 4.5.1 Lucene 简介……………… 108 4.5.2 Solr 简介 ......………………… 113 4.5.3 Elasticsearch 简介…………… · 120 4.6 案例实践……………… 123 4.6.1 实验环境设置.. ... ....………… 123 4.6.2 基于 Solr 的实现 …………… 123 4.6.3 基于 Elasticsearch 的实现 … 154 4.6.4 统一的搜索 API ………··……·175 第三篇 为顾客发现喜欢的商局: 高级篇 第 5 章方案设计和技术选型: NoSQL 和搜索的整合· .. 195 5.1 问题分析 …… IX 5.2 HBase 简介……….. ... .. .…...... . …. 196 5.3 结合 HBase 和搜索引擎………….. 203 5.4 案例实践….... . . . .………........…… 204 5.4.1 实验环境设置 ........ ……··204 5.4.2 HBase 的部署………………… 205 5.4.3 HBase 和搜索引擎的集成 …. . 211 第 6 章方案设计和技术选型: 查询分类和搜索的整合 ·219 6.1 问题分析…………………. . 219 6.2 结合分类器和搜索引擎.. ....……. . 219 6.3 案例实践…······ ·············………… 225 6.3.1 实验环境设置……….......… 225 6.3.2 构建查询分类器 …………······226 6.3.3 定制化的搜索排序…… ··· ·229 6.3.4 整合查询分类和定制化 排序…·… …… ………… 236 第 7 章方案设计和技术选型: 个性化搜索 …· · … 245 7.1 问题分析……………………. ....... . . 245 7.2 结合用户画像和搜索引擎…… ··· 245 7.3 案例实践….........……….......…… 249 7.3.1 用户画像的读取……………… 250 7.3.2 个性化搜索引擎………·· 253 7.3.3 结果对比……………… ··260 第 8 章方案设计和技术选型: 搜索分片 ……·· ····· 267 8.1 问题分析……. ........... . . .………… 267 8.2 利用搜索的分片机制……………··269 x 8.3 案例实践 …………· · · ·· ·· · ····· ·….... . .. . . 271 8.3.1 Solr 路由的实现.. ......... . ...... 271 8.3.2 Elasticsearch 路由的实现 ……· 278 第 9 章 方案设计和技术选型: 搜索提示………….. ..... 283 9.1 问题分析 ……..... . ..….............… 283 9.2 案例实践:基础方案 ..............… 284 9.2.1 Solr 搜索建议和拼写纠错的 实现…….. ... ..…………·· · ···· · 284 9.2.2 Elasticsearch 搜索建议和拼写 纠错的实现 …··..........……… 286 9.3 改进方案 .. . .. . ..... .. ... . .. . .... . ..... . … 291 9.4 案例实践:改进方案 ….... . ....…·· 294 第 10 章方案设计和技术选型: 推荐 ……… ……….. 303 10.l 推荐系统的基本概念 ……......…· 305 10.2 推荐的核心要素…………········ 306 10.2.1 系统角色 .. . .. . ...…………·· 306 10.2.2 相似度 …. . ... . .......... . .…·· 307 10.2.3 相似度传播框架 .... . ....…·· 307 10.3 推荐系统的分类 . . . ... . ..….... ... .. . 307 10.4 混合模型. ··r ..………................. 311 10.5 系统架构… . .. ..........…..... . . … . .. 312 10.6 Mahout 中的推荐算法…….. ... .... 313 10.7 电商常见的推荐系统方案……… 314 10.7.1 电商常见的推荐系统 方案……………………….. 314 10.7.2 相似度的计算 …………….. 317 10.7.3 协同过滤………………….. 319 10.7.4 结果的查询………………·· 320 10.8 案例实践 ……………. ... ....… 321 10.8.1 基于内容特征的推荐…... 321 10.8.2 基于行为特征的推荐…….. 341 第四篇获取数据,跟踪效果 第 11 章方案设计和技术选型: 行为跟踪 … ……….... 369 l l.l 基本概念… . .... . ...... .... ....….. . .... 370 11.1.1 网站的核心框架……….. 370 11.1.2 行为数据的类型 … …… . . . . 371 11.1.3 行为数据的模式…………··372 11.1.4 设计理念…………………·· 374 11.2 使用谷歌分析 ..... . ..……… …. . . 375 11.3 自行设计之 Flume、 HDFS 和 Hive 的整合…·········· ···········…· 378 11.3.1 数据的收集一-Flume 简介…………………········ 378 11.3.2 数据的存储一-Hadoop HDFS 回顾………·…… 382 11 .3.3 批量数据分析一-Hive 简介 ……··..................… 383 11.3.4 Flume、 HDFS 和 Hive 的 整合方案 …··.......... .....… 386 11.4 自行设计之 Flume、 Kafka 和 Storm 的整合……………··…… 386 11.4.1 实时性数据分析之 Kafka 简介 ……….......……....... 386 11.4.2 实时性数据分析之 Storm 简介………………·388 11.4.3 Flume 、 Kafka 和 Storm 的 XI 11.5.4 自主设计实战之 Flume、 HDFS 和 Hive 的整合........ 401 11.5.5 自主设计实战之 Flume、 整合方案………………….. 390 Kafka 和 Storm 的整合……410 11.5 案例实践…………………….. 391 11.6 更多的思考………·……………·424 11.5.1 数据模式的设计……....... . 392 11.5.2 实验环境设置………… ... 392 后记……··…. ... .. .......….. .. . . .….............. 425 11.5.3 谷歌分析实战…………….. 394
上传时间:2018-08 大小:64B
- 7.73MB
阿里巴巴大数据实践之路-9.pdf
2022-06-26阿里巴巴大数据实践之路-9.pdf
- 11.10MB
阿里巴巴大数据实践之路-陈鹏宇.pdf
2021-07-02阿里巴巴大数据实践之路-陈鹏宇.pdf
- 85.89MB
阿里大数据之路:阿里巴巴大数据实践-339页.zip
2021-09-29阿里大数据之路:阿里巴巴大数据实践-339页
- 315KB
阿里巴巴大数据之路——数据技术篇.pdf
2022-12-24阿⾥巴巴⼤数据之路 阿⾥巴巴⼤数据之路——数据技术篇 数据技术篇 ⼀、整体架构 ⼀、整体架构 从下⾄上依次分为数据采集层、数据计算层、数据服务层、数据应⽤层 数据采集层:以DataX为代表的数据同步⼯具和同步中⼼ 数据计算层:以MaxComputer为代表的离线数据存储和计算平台 数据服务层:以RDS为代表的数据库服务(接⼝或者视图形式的数据服务) 数据应⽤层:包含流量分析平台等数据应⽤⼯具 ⼆、数据采集(离线数据同步) ⼆、数据采集(离线数据同步) 数据采集主要分为⽇志采集和数据库采集。⽇志采集暂略(参考书籍原⽂)。我们主要运⽤的是数据库采集(数据库同步)。 通常情况下,我们需要规定原业务系统表增加两个字段:创建时间、更新时间(或者⾄少⼀个字段:更新时间) 数据同步主要可以分为三⼤类:直连同步、数据⽂件同步、数据库⽇志解析同步 1.直连同步 通过规范好的接⼝和动态连接库的⽅式直接连接业务库,例如通过ODBC/JDBC进⾏直连 当然直接连接业务库的话会对业务库产⽣较⼤压⼒,如果有主备策略可以从备库进⾏抽取,此⽅式不适合直接从业务库到数仓的情景 2.数据⽂件同步 从源系统⽣成数据⽂本⽂件,利⽤FTP等传输⽅式传输⾄⽬标系统,完成数据的同步 为了防⽌丢包等情况,⼀般会附加⼀个校验⽂件 ,校验⽂件包含数据量、⽂件⼤⼩等信息 为了安全起见还可以加密压缩传输,到⽬标库再解压解密,提⾼安全性 3.数据库⽇志同步 主流数据库都⽀持⽇志⽂件进⾏数据恢复(⽇志信息丰富,格式稳定),例如Oracle的归档⽇志 (数据库相关⽇志介绍,参考:) 4.阿⾥数据仓库同步⽅式 1)批量数据同步 要实现各种各样数据源与数仓的数据同步,需要实现数据的统⼀,统⼀的⽅式是将所有数据类型都转化为中间状态,也就是字符串类型。以此来实现数据格式的统⼀。 产品——阿⾥DataX:多⽅向⾼⾃由度异构数据交换服务产品,产品解决的主要问题:实现跨平台的、跨数据库、不同系统之间的数据同步及交互。 产品简介: 开源地址: 更多的介绍将会通过新开随笔进⾏介绍!(当然还有其他主流的数据同步⼯具例如kettle等!) 2)实时数据同步 实时数据同步强调的是实时性,基本原理是通过数据库的⽇志(MySQL的bin-log,Oracle的归档⽇志等)实现数据的增量同步传输。 产品——阿⾥TimeTunnel(简称TT)。TT产品本质是⼀个⽣产者、消费者模型的消息中间件 3)常见问题 1.增量数据与全量数据的合并 主要的场景是数据同步中周期全量同步,对应的解决⽅案是每次只同步变更的数据,然后和上⼀周期合并,形成最新的全量数据(选择此⽅案的原因是绝⼤多 数⼤数据平台不⽀持update操作) 具体的⽅案主要有union的联合操作(可以通过⽣成增量中间表detal)与阿⾥主推的全外连接full outer join+全量覆盖insert overwrite的形式。实例参考如下: SQL的Join语法有很多, inner join(等值连接) 只返回两个表中联结字段相等的⾏, left join(左联接) 返回包括左表中的所有记录和右表中联结字段相等的记录, right join(右联接) 返回包括右表中的所有记录和左表中联结字段相等的记录, 假设我们有两张表。Table A 是左边的表。Table B 是右边的表。其各有四条记录,其中有两条记录name是相同的,如下所⽰: A表 id name 1 Pirate 2 Monkey 3 Ninja 4 Spaghetti B表 id name 1 Rutabaga 2 Pirate 3 Darth Vade 4 Ninja 让我们看看不同JOIN的不同。 FULL [OUTER] JOIN (1) SELECT * FROM TableA FULL OUTER JOIN TableB ON TableA.name = TableB.name TableA.name = TableB.name 的情况,A和B的交集有两条数据,那么 FULL OUTER JOIN的结果集, 应该是2+2+2=6条,即上⾯的交集,再加剩下的四条数据,没有匹配,以null补全。 结果集 (TableA.) (TableB.) id name id name 1 Pirate 2 Pirate 2 Monkey null null 3 Ninja 4 Ninja 4 Spaghetti null null null null 1 Rutabag
- 7.12MB
阿里大数据之路——关键总结版.pdf
2021-11-22阿里大数据之路的自我总结,希望分享给有需要的同学,包含大量自己画的图
- 13.50MB
推荐系统实践.pdf,推荐系统实践pdf,Python
2021-09-10推荐系统实战课程,个性化推荐系统,智能推荐系统,机器学习算法
- 2.4MB
阿里巴巴大数据实践之路
2015-11-12云栖大会, 阿里巴巴大数据实践, 介绍了阿里巴巴数据存储,打通,运营过程
- 16.69MB
阿里巴巴的大数据实战总结大数据实战.zip
2020-08-16阿里巴巴的大数据实战总结,maxcompute,hadoop等。深度剖析淘宝、高德、友盟+、1688、优酷、阿里妈妈、阿里影业大数据实战场景,2020不容错过的企业大数据实战手册
- 104.86MB
阿里巴巴 大数据之路
2019-04-29阿里巴巴,作为距离大数据最近的公司之一,近几年对大数据却鲜有高谈阔论。实际上,阿里巴巴一开始就自然生长在数据的黑洞中,并且被越来越多、越来越密集的数据风暴裹挟。从需求→设计→迭代→升华为理论,在无数次的迭代进化中,阿里巴巴对大数据的理解才逐渐成形,慢慢能够在将数据黑洞为我所用的抗争中扳回一局。《大数据之路:阿里巴巴大数据实践》就是在这个过程中,由阿里巴巴数据技术及产品部沉淀下来的大数据知识与实践,值得每一位与大数据相关的人阅读。
- 75B
Spark大型项目实战:电商用户行为分析大数据平台开发实战
2021-07-12全都是企业级的复杂和真实的需求,业务模块非常之复杂,绝对不是市面上的Dem级别的大数据项目能够想比拟的,学习过后,真正帮助学员增加实际 企业级项目的实战经验。 3、项目中通过实际的功能模块和业务场景,以及...
- 194.69MB
架构大数据 大数据技术及算法解析_PDF电子书下载 高清 带索引书签目录_赵勇编著_北京:电子工业出版社_P430_2015.06.pdf
2018-09-27本书内容不错,从大数据的概念、数据采集、数据分析、实时数据处理、数据挖掘、深度学习、大数据可视化、大数据安全等各个方面都有涉及,最后还讲述了一些大公司的大数据架构,是一本了解大数据全链路不错的书籍。
- 1.74MB
基于人工智能的电商大数据分类与挖掘算法.pdf
2021-07-08基于人工智能的电商大数据分类与挖掘算法.pdf
- 69.55MB
大数据日知录(架构与算法).pdf(带完整书签)
2019-04-16大数据日知录(架构与算法).pdf(带完整书签)可以作为学习大数据技术的入门书!
- 67.62MB
大数据日知录——架构与算法
2018-04-12《大数据日知录:架构与算法》对众多纷繁芜杂的相关技术文献和系统进行了择优汰劣并系统性地对相关知识分门别类地进行整理和介绍,将大数据相关技术分为大数据基础理论、大数据系统体系结构、大数据存储,以及包含...
- 1.13MB
京东推荐系统实践-刘思喆.pdf
2019-09-26挖掘用户潜在购买需求 • 缩短用户到商品的距离 • 用户需求不明确时提供参考 • 满足用户的好奇心
- 67.62MB
大数据-日知录-架构-算法(PDF高清完整版)
2017-11-23《大数据日知录:架构与算法》对众多纷繁芜杂的相关技术文献和系统进行了择优汰劣并系统性地对相关知识分门别类地进行整理和介绍,将大数据相关技术分为大数据基础理论、大数据系统体系结构、大数据存储,以及包含...
- 35.98MB
基于大数据的全球电商系统架构性能优化
2017-11-15基于大数据的全球电商系统架构性能优化,详细的介绍了框架
- 1.48MB
逻辑回归算法在电商大数据推荐系统中的应用研究.pdf
2021-07-10逻辑回归算法在电商大数据推荐系统中的应用研究.pdf
- 87.44MB
大数据日知录:架构与算法
2018-10-30大数据日知录:架构与算法
- 1016KB
《大数据日知录:架构与算法》
2017-07-22《大数据日知录:架构与算法》电子书
- 169B
《大数据日知录——架构与算法》PDF版本下载.txt
2019-07-17《大数据日知录——架构与算法》PDF版本下载
- 206.89MB
2022大数据存储架构实践资料合集-共51份.zip
2022-04-012022大数据存储架构实践资料合集,共51份。 一站式海量数据集成框架原理和实践 为云而生的分布式文件系统 未来数据库需要关心的硬核创新 Apache Doris存储层向量化改造设计与实现 数据编排技术在联通的应用 基于云...
- 326KB
武汉理工大学大数据结构与算法综合实验图与景区信息的管理系统.pdf
2022-07-09武汉理工大学大数据结构与算法综合实验图与景区信息的管理系统.pdf武汉理工大学大数据结构与算法综合实验图与景区信息的管理系统.pdf武汉理工大学大数据结构与算法综合实验图与景区信息的管理系统.pdf武汉理工大学...
- 3.0MB
大数据-算法-GRAB算法实现.pdf
2022-04-15大数据-算法-GRAB算法实现.pdf
- 6.11MB
剖析大数据核心技术和实战应用 清华大数据课程课件含习题 第9章 大数据商业应用(47页).pdf
2021-05-29清华大学出品的大数据全套课程PPT学习课件,非常适合大学生和职场人士学习,也适合老鸟复习回顾,完全可用于自学入门,很经典好用的PPT课件哦~ 01.《大数据》配套PPT之一:第1章 大数据概念与应用 02.《大数据》配套...
- 0B
Qt 5实现串口调试助手 (源工程文件、0积分下载)
2021-12-06基于Qt 5实现串口调试助手,程序仅供参考,修改了之前十六进制接收0xA0--0xFF有误的问题,新增了窗口自适应(ui文件设置栅格),文件详情可看博客链接https://blog.csdn.net/m0_51294753/article/details/121405661。
- 47.24MB
【SystemVerilog】路科验证V2学习笔记(全600页).pdf
2021-02-25SystemVerilog的听课学习笔记,包括讲义截取、知识点记录、注意事项等细节的标注。 目录如下: 第一章 SV环境构建常识 1 1.1 数据类型 1 四、二值逻辑 4 定宽数组 9 foreach 13 动态数组 16 队列 19 关联数组 21 枚举类型 23 字符串 25 1.2 过程块和方法 27 initial和always 30 function逻辑电路 33 task时序电路 35 动态 静态变量 39 1.3 设计例化和连接 45 第二章 验证的方法 393 动态仿真 395 静态检查 397 虚拟模型 403 硬件加速 405 效能验证 408 性能验证 410 第三章 SV组件实现 99 3.1 接口 100 什么是interface 101 接口的优势 108 3.2 采样和数据驱动 112 竞争问题 113 接口中的时序块clocking 123 利于clocking的驱动 133 3.3 测试的开始和结束 136 仿真开始 139 program隐式结束 143 program显式结束 145 软件域program 147 3.4 调试方法 150 第四章 验证的计划 166 4.1 计划概述 166 4.2 计划的内容 173 4.3 计划的实现 185 4.4 计划的进程评估 194 第五章 验证的管理 277 6.1 验证的周期检查 277 6.2 管理三要素 291 6.3 验证的收敛 303 6.4 问题追踪 314 6.5 团队建设 321 6.6 验证的专业化 330 第六章 验证平台的结构 48 2.1 测试平台 49 2.2 硬件设计描述 55 MCDF接口描述 58 MCDF接口时序 62 MCDF寄存器描述 65 2.3 激励发生器 67 channel initiator 72 register initiator 73 2.4 监测器 74 2.5 比较器 81 2.6 验证结构 95 第七章 激励发生封装:类 209 5.1 概述 209 5.2 类的成员 233 5.3 类的继承 245 三种类型权限 protected/local/public 247 this super 253 成员覆盖 257 5.4 句柄的使用 263 5.5 包的使用 269 第八章 激励发生的随机化 340 7.1 随机约束和分布 340 权重分布 353 条件约束 355 7.2 约束块控制 358 7.3 随机函数 366 7.4 数组约束 373 7.5 随机控制 388 第九章 线程与通信 432 9.1 线程的使用 432 9.2 线程的控制 441 三个fork...join 443 等待衍生线程 451 停止线程disable 451 9.3 线程的通信 458 第十章 进程评估:覆盖率 495 10.1 覆盖率类型 495 10.2 功能覆盖策略 510 10.3 覆盖组 516 10.4 数据采样 524 10.5 覆盖选项 544 10.6 数据分析 550 第十一章 SV语言核心进阶 552 11.1 类型转换 552 11.2 虚方法 564 11.3 对象拷贝 575 11.4 回调函数 584 11.5 参数化的类 590 第十二章 UVM简介 392 8.2 UVM简介 414 8.3 UVM组件 420 8.4 UVM环境 425