【免费】第十八章_后端架构选型及应用场景1资源-CSDN文库

需积分: 0 3 浏览量 2022-08-03 17:31:47 上传评论收藏 4.98MB PDF 举报

资源详情

资源评论

资源推荐

第
十
八
章
 
后
端
架
构
选
型
及
应
用
场
景
1 为什么需要分布式计算？
2 目前有哪些深度学习分布式计算框架？
2.1 PaddlePaddle
2.2 Deeplearning4j
2.3 Mahout
2.4 Spark MLllib 
2.5 Ray
2.6 Spark stream
2.7 Horovod
2.8 BigDL
2.9 Petastorm
2.10 TensorFlowOnSpark
3 如何进行实时计算？
3.1 什么是实时流计算？
3.2 实时流计算过程
4 如何进行离线计算？
4.1 数据采集
4.2 数据预处理
4.3 数据建模
4.4 ETL
4.5 数据导出
4.6 工作流调度
5 如何设计一个人机交互系统？
5.1 什么是人机交互系统？
5.2 如何设计人机交互系统的问答引擎算法架构？
5.3 如何处理长难句？
5.4 如何纠错？
5.5 什么是指代消解？如何指代消解？
5.6 如何做语义匹配？
5.7 如何在海量的向量中查找相似的TopN向量？
5.8 什么是话术澄清？
5.9 如何对结果进行排序打分？
5.10 如何评估人机交互系统的效果？
6 如何设计个性化推荐系统？
6.1 什么是个性化推荐系统？
6.2 如何设计个性化推荐系统的推荐引擎架构？
6.3 召回模块
6.4 排序模块
6.5 离线训练
6.6 用户画像
6.7 GBDT粗排
6.8 在线FM精排
6.9 算法介绍
6.10 如何评价个性化推荐系统的效果？
6.11 个性化推荐系统案例分析
7 参考文献

第十八章 后端架构选型及应用场景  

18.1

为什么

需

要

分

布

式

计

算

？

在这个数据爆炸的时代，产生的数据量不断地在攀升，从GB,TB,PB,ZB.挖掘

其中数据的价值也是企业在不断地追求的终极目标。但是要想对海量的数据进行

挖掘，首先要考虑的就是海量数据的存储问题，比如Tb量级的数据。

谈到数据的存储，则不得不说的是磁盘的数据读写速度问题。早在上个世纪

90年代初期，普通硬盘的可以存储的容量大概是1G左右，硬盘的读取速度大概

为4.4MB/s.读取一张硬盘大概需要5分钟时间，但是如今硬盘的容量都在1TB左

右了,相比扩展了近千倍。但是硬盘的读取速度大概是100MB/s。读完一个硬盘

所需要的时间大概是2.5个小时。所以如果是基于TB级别的数据进行分析的话，

光硬盘读取完数据都要好几天了，更谈不上计算分析了。那么该如何处理大数据

的存储，计算分析呢？

一个很简单的减少数据读写时间的方法就是同时从多个硬盘上读写数据，比

如，如果我们有100个硬盘，每个硬盘存储1%的数据，并行读取，那么不到两

分钟就可以完成之前需要2.5小时的数据读写任务了。这就是大数据中的分布式

存储的模型。当然实现分布式存储还需要解决很多问题，比如硬件故障的问题，

使用多台主机进行分布式存储时，若主机故障，会出现数据丢失的问题，所以有

了副本机制：系统中保存数据的副本。一旦有系统发生故障，就可以使用另外的

副本进行替换（著名的RAID冗余磁盘阵列就是按这个原理实现的）。其次比如

一个很大的文件如何进行拆分存储，读取拆分以后的文件如何进行校验都是要考

虑的问题。比如我们使用Hadoop中的HDFS也面临这个问题，只是框架给我们实

现了这些问题的解决办法，开发中开发者不用考虑这些问题，底层框架已经实现

了封装。

同样假如有一个10TB的文件，我们要统计其中某个关键字的出现次数，传

统的做法是遍历整个文件，然后统计出关键字的出现次数，这样效率会特别特别

低。基于分布式存储以后，数据被分布式存储在不同的服务器上，那么我们就可

以使用分布式计算框架（比如MapReduce,Spark等）来进行并行计算（或者说是

分布式计算），即：每个服务器上分别统计自己存储的数据中关键字出现的次

数，最后进行一次汇总，那么假如数据分布在100台服务器上，即同时100台服

务器同时进行关键字统计工作，效率一下子可以提高几十倍。

18.2

目

前

有

哪

些

深

度

学

习

分

布

式

计

算

框架

？

18.2.1 PaddlePaddle

PaddlePaddle【1】是百度开源的一个深度学习平台。PaddlePaddle为深度

学习研究人员提供了丰富的API，可以轻松地完成神经网络配置，模型训练等任

务。

官方文档中简易介绍了如何使用框架在

线性回归

识别数字

图像分类

词向量

个性化推荐

情感分析

Markdown Revision 1;

Date: 2018/11/11

Editor: 梁志成

Contact: superzhicheng@foxmail.com

架构图

MLlib是MLBase一部分，其中MLBase分为四部分：MLlib、MLI、ML Optimizer

和MLRuntime。

ML Optimizer会选择它认为最适合的已经在内部实现好了的机器学习

算法和相关参数，来处理用户输入的数据，并返回模型或别的帮助分

析的结果；

MLI 是一个进行特征抽取和高级ML编程抽象的算法实现的API或平

台；

MLlib是Spark实现一些常见的机器学习算法和实用程序，包括分类、

回归、聚类、协同过滤、降维以及底层优化，该算法可以进行可扩

充；

MLRuntime 基于Spark计算框架，将Spark的分布式计算应用到机器

学习领域。

MLlib主要包含三个部分：

底层基础：包括Spark的运行库、矩阵库和向量库

算法库：包含广义线性模型、推荐系统、聚类、决策树和评估的算法

实用程序：包括测试数据的生成、外部数据的读入等功能

MLlib目前支持4种常见的机器学习问题: 分类、回归、聚类和协同过滤，

MLlib在Spark整个生态系统中的位置如图下图所示。

18.2.5 Ray

Ray【5】是加州大学伯克利分校实时智能安全执行实验室(RISELab)的研究

人员针对机器学习领域开发的一种新的分布式计算框架，该框架旨在让基于

Python的机器学习和深度学习工作负载能够实时执行，并具有类似消息传递接

口(MPI)的性能和细粒度。

增强学习的场景，按照原理定义，因为没有预先可用的静态标签信息，所以

通常需要引入实际的目标系统（为了加快训练，往往是目标系统的模拟环境）来

获取反馈信息，用做损失/收益判断，进而完成整个训练过程的闭环反馈。典型

的步骤是通过观察特定目标系统的状态，收集反馈信息，判断收益，用这些信息

来调整参数，训练模型，并根据新的训练结果产出可用于调整目标系统的行为

Action，输出到目标系统，进而影响目标系统状态变化，完成闭环，如此反复迭

代，最终目标是追求某种收益的最大化（比如对AlphoGo来说，收益是赢得一盘

围棋的比赛）。

剩余56页未读，继续阅读

评论收藏

内容反馈

文润观书

粉丝: 24
资源: 318

第十八章_后端架构选型及应用场景1

评论0

最新资源

第十八章_后端架构选型及应用场景1

评论0

第十八章_后端架构选型及应用场景.md

18_第十八章_后端架构选型及应用场景1

18_第十八章_后端架构选型、离线及实时计算1

DeepLearning深度学习教程_第十八章_后端架构选型及应用场景.pdf

第十八章_后端架构选型、离线及实时计算1

第十八章_后端架构选型、离线及实时计算.pdf

DeepLearning-深度学习 经验总结合集-共18章.zip

DeepLearning深度学习教程_第十八章_后端架构选型、离线及实时计算.pdf

Altera_FPGA的选型及开发

Si4432_30M晶体选型应用

电商项目的前端、后端架构设计带项目举例（个人整理）

问卷系统后端技术选型1

sanyo_三洋_选型.rar

CAD_CAE_CAM系统选型小议.pdf

一些常用选型资料.zip.zip___一些常用选型资料.zip.zip

WinCC V7.0典型架构选型指南.zip

项目技术架构选型方案报告

ABB_变频器选型手册_ACS800.pdf

BurpLoaderKeygen.jar.zip

最新版ISO/IEC 27001:2022、ISO 27002:2022中英文合集

Goby红队版-win-x64-2.4.7版本

Chrome Header Editor 插件

ISO SAE 21434-2021 中文版.pdf

OpenVAS GVM 中文翻译补丁

安全认证cisp教材全套

STM32F103C8T6核心板-电路原理图1.PDF

现代永磁同步电机控制原理及MATLAB仿真__袁雷编著1

最新资源

DeepLearning-深度学习经验总结合集-共18章.zip