【免费】18_第十八章_后端架构选型及应用场景1资源-CSDN文库

需积分: 0 14 浏览量 2022-08-03 14:29:09 上传评论收藏 3.11MB PDF 举报

资源详情

资源评论

资源推荐

第⼗⼋章第⼗⼋章后端架构选型后端架构选型

及应⽤场景及应⽤场景

DeepLearning

在这个数据爆炸的时代，产⽣的数据量不断地在攀升，从GB,TB,PB,ZB.挖掘其中数据的价值也是企业在不断地追求的终

极⽬标。但是要想对海量的数据进⾏挖掘，⾸先要考虑的就是海量数据的存储问题，⽐如Tb量级的数据。

谈到数据的存储，则不得不说的是磁盘的数据读写速度问题。早在上个世纪90年代初期，普通硬盘的可以存储的容量⼤

概是1G左右，硬盘的读取速度⼤概为4.4MB/s.读取⼀张硬盘⼤概需要5分钟时间，但是如今硬盘的容量都在1T B左右了,相⽐

扩展了近千倍。但是硬盘的读取速度⼤概是100MB/s。读完⼀个硬盘所需要的时间⼤概是2.5个⼩时。所以如果是基于T B级别

的数据进⾏分析的话，光硬盘读取完数据都要好⼏天了，更谈不上计算分析了。那么该如何处理⼤数据的存储，计算分析

呢？

⼀个很简单的减少数据读写时间的⽅法就是同时从多个硬盘上读写数据，⽐如，如果我们有100个硬盘，每个硬盘存储

1%的数据，并⾏读取，那么不到两分钟就可以完成之前需要2.5⼩时的数据读写任务了。这就是⼤数据中的分布式存储的模

型。当然实现分布式存储还需要解决很多问题，⽐如硬件故障的问题，使⽤多台主机进⾏分布式存储时，若主机故障，会出

现数据丢失的问题，所以有了副本机制：系统中保存数据的副本。⼀旦有系统发⽣故障，就可以使⽤另外的副本进⾏替换

（著名的RAID冗余磁盘阵列就是按这个原理实现的）。其次⽐如⼀个很⼤的⽂件如何进⾏拆分存储，读取拆分以后的⽂件如

何进⾏校验都是要考虑的问题。⽐如我们使⽤Hadoop中的HDFS也⾯临这个问题，只是框架给我们实现了这些问题的解决办

法，开发中开发者不⽤考虑这些问题，底层框架已经实现了封装。

同样假如有⼀个10TB的⽂件，我们要统计其中某个关键字的出现次数，传统的做法是遍历整个⽂件，然后统计出关键字

的出现次数，这样效率会特别特别低。基于分布式存储以后，数据被分布式存储在不同的服务器上，那么我们就可以使⽤分

布式计算框架（⽐如MapReduce,Spark等）来进⾏并⾏计算（或者说是分布式计算），即：每个服务器上分别统计⾃⼰存储

的数据中关键字出现的次数，最后进⾏⼀次汇总，那么假如数据分布在100台服务器上，即同时100台服务器同时进⾏关键字

统计⼯作，效率⼀下⼦可以提⾼⼏⼗倍。

18.2 ⽬前有哪些深度学习分布式计算框架？

18.2.1 PaddlePaddle

PaddlePaddle【1】是百度开源的⼀个深度学习平台。PaddlePaddle为深度学习研究⼈员提供了丰富的API，可以轻松

地完成神经⽹络配置，模型训练等任务。

官⽅⽂档中简易介绍了如何使⽤框架在

线性回归

识别数字

图像分类

词向量

个性化推荐

情感分析

语义⾓⾊标注

机器翻译

等⽅⾯的应⽤

Git hub地址：htt ps://git hub.com/PaddlePaddle/Paddle

18.2.2 Deeplearning4j

DeepLearning4J（DL4J）【2】是⼀套基于Java语⾔的神经⽹络⼯具包，可以构建、定型和部署神经⽹络。DL4J与

Hadoop和Spark集成，⽀持分布式CPU和GPU。

Deeplearning4j包括了分布式、多线程的深度学习框架，以及普通的单线程深度学习框架。定型过程以集群进⾏，也就

是说，Deeplearning4j可以快速处理⼤量数据。Deeplearning4j在开放堆栈中作为模块组件的功能，使之成为为微服务架构打

造的深度学习框架。

Deeplearning4j从各类浅层⽹络出发，设计深层神经⽹络。这⼀灵活性使⽤户可以根据所需，在分布式、⽣产级、能够

第⼗⼋章后端架构选型及应⽤场景

2/53

剩余55页未读，继续阅读

评论0

内容反馈

开眼旅行精选

粉丝: 12
资源: 327

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip