一年来谷歌专题前沿论文最新进展 2018.11.05 方建勇1
谷歌专题前沿论文最新进展(2018.11.05 方建勇) 以下是对谷歌专题前沿论文最新进展的知识点总结: 知识点1:c2tcp - 一种灵活的蜂窝TCP c2tcp是朝着新的网络协议系统设计方向努力的结果。它受到红和codel等网络内主动队列管理(AQM)设计的启发,并且缺乏灵活的端到端方法,无需修改任何网络设备即可适应不同应用程序的QoS要求。c2tcp应对蜂窝网络中实现超低延迟的独特挑战,并打算满足严格的延迟不同应用要求,同时最大限度地提高吞吐量。 知识点2:神经机器翻译中的并行注意机制 神经机器翻译论文提出了严格使用注意机制比以前的标准,如复发和卷积神经网络(RNN和CNN)。我们建议,通过并行运算编码器-解码器以注意为中心的体系结构中传统上的堆叠编码分支,可以从模型中删除更多的顺序操作,从而减少训练时间。 知识点3:使用TensorFlow和CUBA-WuWity MPI的可扩展分布式DNN培训 TensorFlow一直是最广泛采用的机器深层学习框架。然而,文献中几乎不存在,这些文献提供了对TensorFlow为需要大规模计算和通信的大型ML模型的分布式培训所提供的能力的透彻了解。tf最常用的分布式培训方法可分为以下几类:1)Google远程过程调用(gRPC),2)gRPC+x:x=(英菲班德动词、消息传递接口和gRPC RDMA),3)无gRPC:百度全减与MPI,霍罗沃德与MPI,和霍洛沃德与NVIDIA NCCL。 在本文中,我们对包括Piz D构系统(Top500上的6)在内的各种GPU集群的分布式培训方法进行了深入的性能描述和分析。我们进行实验,以获得新的见解,沿以下载体:1)应用程序级可扩展性的DNN培训,2)批处理理大小对缩放效率的影响,3)用于无gRPC方法的MPI库的影响,4)DNN的类型和大小架构。在这些实验的基础上,我们提出了两个关键的见解:1)总体而言,与大多数配置的基于gRPC的方法相比,无gRPC设计实现了更好的性能;2)no-gRPC的性能受到梯度聚合的严重影响,使 用好吧,别动我们提出了一个真正的CUDA感知MPI all倍级设计,利 用CUDA内核和指针缓存来有效地执行大的减少。 这些知识点的总结为:c2tcp是一种灵活的蜂窝TCP,神经机器翻译论文提出了并行注意机制,TensorFlow和CUBA-WuWity MPI的可扩展分布式DNN培训是机器深层学习框架中的一个重要方向。
剩余169页未读,继续阅读
- 粉丝: 626
- 资源: 298
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
评论0