腾讯深度学习平台（译）资源-CSDN文库

腾讯深度学习

5星 · 超过95%的资源需积分: 10 123 浏览量 2014-08-14 09:37:36 上传评论收藏 124KB DOCX 举报

资源推荐

资源详情

资源评论

1 介绍

1.1 背景

腾讯提供了一些列 Internet 服务，比如拥有 3.9 亿左右月激活用户的微信(WeChat)、

以及 8.4 亿左右 QQ 用户和 6.4 亿左右的 QZone 用户。这些数据是来自于 2014 年第一

季度。腾讯拥有超过 100PB 数据，这些数据由不同的应用以及不同的用户产生的，用

户生成的数据比如有照片、语音和视频。

近些年深度学习在大数据挖掘已经成为一个热点，也在不同领域取得了突破性的进

展，比如语音识别(automac speech recognion)和图像识别。深度学习能给腾讯的很

多应用带来实质性改变，比如微信中的语音和图像识别、QQ 和 QZone 的广告投放。

当然如果想要深度学习在腾讯真正发挥作用，必须考虑三方面的因素。

 需要具备大量的计算能力和有效的并行框架去训练模型。比如：在微信中用于

识别中文和英文的 ASR(Automatic Speech Recognition)语音识别模型采用

的是一个深层的神经网络(DNN)去训练，该模型大约有超过 5000 万参数，然

后用 100 亿训练实例，如果只使用单个 CPU 去训练可能需要花上好几年时间

或者采用单个 GPU 去训练可能花上几个月时间

 对于训练大型模型，必要的支持能提高模型质量。在 CNNs 中，通过增加更多

Map

Filter(小块区域映射) 和更多的层可以提高分类的准确率。

 灵活的框架对于做不同模型选择实验是相当有帮助的，模型选择包括：选择模

型架构、寻找优化方法、以及微调一个高性能模型的超参数

为了解决上面的三方面因素，并行框架必须在模型训练更快、更大、更易用。

一般并行框架分为两种：数据并行(Data parallelism)和模型并行(model

parallelism)，这两种框架是由 Google DistBelief 引进的，采用的是 CPU 组成的集

群。

由 Google COTS 系统以及 Facebook 的 Multi-GPU 也才采用这种并行方案，这些系

统是

由 GPU 服务组成的。下面我们简单区分一下数据并行和模型并行，简单来讲数据并行

就

是把数据分成多份(每份称为 mini-batch)，每份数据跑一个模型副本，然后用每个模

型计算出来的梯度(gradients)去更新参数；模型并行就是把模型切分开来，让每个计

算节点计算模型一部分，然后在计算过程中做内部交互。模型并行除了提高性能外，

也

减少每个节点内存消耗，由此它有可能处理更大的模型。

除了一些公司内部特有的框架，在一些开源社区里面也有一些使用 CPUs 和 GPUs

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余7页未读，立即下载

内容反馈

yubin1277408629

2016-09-25

写的很好，很全面
wuzenglun

2014-08-19

写的很好，很全面

小桥

粉丝: 75
资源: 29

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip