【免费】深度学习后端架构选型及其应用场景选择资源-CSDN文库

需积分: 0 8 浏览量 2024-03-29 10:00:37 上传评论收藏 4.37MB PDF 举报

资源推荐

资源详情

资源评论

第十八章 后端架构选型及应用场景
1 为什么需要分布式计算？
2 目前有哪些深度学习分布式计算框架？
2.1 PaddlePaddle
2.2 Deeplearning4j
2.3 Mahout
2.4 Spark MLllib 
2.5 Ray
2.6 Spark stream
2.7 Horovod
2.8 BigDL
2.9 Petastorm
2.10 TensorFlowOnSpark
3 如何进行实时计算？
3.1 什么是实时流计算？
3.2 实时流计算过程
4 如何进行离线计算？
4.1 数据采集
4.2 数据预处理
4.3 数据建模
4.4 ETL
4.5 数据导出
4.6 工作流调度
5 如何设计一个人机交互系统？
5.1 什么是人机交互系统？
5.2 如何设计人机交互系统的问答引擎算法架构？
5.3 如何处理长难句？
5.4 如何纠错？
5.5 什么是指代消解？如何指代消解？
5.6 如何做语义匹配？
5.7 如何在海量的向量中查找相似的TopN向量？
5.8 什么是话术澄清？
5.9 如何对结果进行排序打分？
5.10 如何评估人机交互系统的效果？
6 如何设计个性化推荐系统？
6.1 什么是个性化推荐系统？
6.2 如何设计个性化推荐系统的推荐引擎架构？
6.3 召回模块
6.4 排序模块
6.5 离线训练
6.6 用户画像
6.7 GBDT粗排
6.8 在线FM精排
6.9 算法介绍
6.10 如何评价个性化推荐系统的效果？
6.11 个性化推荐系统案例分析
7 参考文献

第十八章 后端架构选型及应用场景  

18.1 为什么需要分布式计算？

在这个数据爆炸的时代，产生的数据量不断地在攀升，从GB,TB,PB,ZB.挖掘其中数据的价值也是企

业在不断地追求的终极目标。但是要想对海量的数据进行挖掘，首先要考虑的就是海量数据的存储问

题，比如Tb量级的数据。

谈到数据的存储，则不得不说的是磁盘的数据读写速度问题。早在上个世纪90年代初期，普通硬盘

的可以存储的容量大概是1G左右，硬盘的读取速度大概为4.4MB/s.读取一张硬盘大概需要5分钟时间，

但是如今硬盘的容量都在1TB左右了,相比扩展了近千倍。但是硬盘的读取速度大概是100MB/s。读完一

个硬盘所需要的时间大概是2.5个小时。所以如果是基于TB级别的数据进行分析的话，光硬盘读取完数

据都要好几天了，更谈不上计算分析了。那么该如何处理大数据的存储，计算分析呢？

一个很简单的减少数据读写时间的方法就是同时从多个硬盘上读写数据，比如，如果我们有100个

硬盘，每个硬盘存储1%的数据，并行读取，那么不到两分钟就可以完成之前需要2.5小时的数据读写任

务了。这就是大数据中的分布式存储的模型。当然实现分布式存储还需要解决很多问题，比如硬件故障

的问题，使用多台主机进行分布式存储时，若主机故障，会出现数据丢失的问题，所以有了副本机制：

系统中保存数据的副本。一旦有系统发生故障，就可以使用另外的副本进行替换（著名的RAID冗余磁盘

阵列就是按这个原理实现的）。其次比如一个很大的文件如何进行拆分存储，读取拆分以后的文件如何

进行校验都是要考虑的问题。比如我们使用Hadoop中的HDFS也面临这个问题，只是框架给我们实现了

这些问题的解决办法，开发中开发者不用考虑这些问题，底层框架已经实现了封装。

同样假如有一个10TB的文件，我们要统计其中某个关键字的出现次数，传统的做法是遍历整个文

件，然后统计出关键字的出现次数，这样效率会特别特别低。基于分布式存储以后，数据被分布式存储

在不同的服务器上，那么我们就可以使用分布式计算框架（比如MapReduce,Spark等）来进行并行计

算（或者说是分布式计算），即：每个服务器上分别统计自己存储的数据中关键字出现的次数，最后进

行一次汇总，那么假如数据分布在100台服务器上，即同时100台服务器同时进行关键字统计工作，效

率一下子可以提高几十倍。

18.2 目前有哪些深度学习分布式计算框架？

18.2.1 PaddlePaddle

PaddlePaddle【1】是百度开源的一个深度学习平台。PaddlePaddle为深度学习研究人员提供了

丰富的API，可以轻松地完成神经网络配置，模型训练等任务。

官方文档中简易介绍了如何使用框架在

线性回归

识别数字

图像分类

词向量

个性化推荐

情感分析

语义角色标注

机器翻译

等方面的应用

Github地址：https://github.com/PaddlePaddle/Paddle

Markdown Revision 1;

Date: 2018/11/11

Editor: 梁志成

Contact: superzhicheng@foxmail.com

剩余54页未读，继续阅读

内容反馈

fighting的码农(zg)-GPT

粉丝: 345
资源: 34

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip