首页 体育世界正文

人流后注意事项,TPU、GPU、CPU深度学习渠道哪家强?有人做了一个基准测验研讨,周口天气预报

选自arXiv

作者:Yu (Emma) Wang、Gu-Yeon Wei、David Brooks

参加簿本五颜六色:Nurhachu Null、张倩

GPU、TPU、CPU 都可以用于深度学习模型的练习,那么这几个途径人流后留意事项,TPU、GPU、CPU深度学习途径哪家强?有人做了一个基准检验研讨,周口天气预报各适用于哪种模型,又各有哪些瓶颈?在本文中,来自哈佛的研讨者规划了一个用于深度学习的参数化基准检验套件——ParaDnn,旨在体系地对这些深度学习途径进行基人流后留意事项,TPU、GPU、CPU深度学习途径哪家强?有人做了一个基准检验研讨,周口天气预报准检验。

GPU、TPU、CPU 都可以用于深度学习模型的练习,那么这几个途径各适用于哪种模型,又各有哪些瓶颈?在本文中,来自哈佛的研讨者规划了一个用于深度学习的参数化基准检验套件——ParaDnn,旨在体系地对这些深度学习途径进行基准检验。

ParaDnn 可认为全衔接(FC)、卷积(CNN)和循环(RNN)神经网络生成吴燕雯端到端的模型。研讨者运用 6 个实践模型对谷歌的云 TPU v2/v3、英伟达的 V100 GPU、以及英特尔的 Skylake CPU 途径进行了基准检验。他们深入研讨了 TPU 的架构,提醒了母亲和孩子它的瓶颈,并要点介绍了可以用于未来专业体系规划的名贵经历。他们还供给了途径的全面比照,发现每个途径对某些类型的模型都有自己共同的优势。最终,他们量化了专用的软件仓库对 TPU 和 GPU 途径供给的快速功能改善。

1183199
窦志明
    尤茉丝
  • 论文:Benchmarking TPU, GPU, and CPU Platforms for Deep Learning
  • 论文链接:https://arxiv.org/pdf/1907.10701.pdf

常用硬件及基准都有啥

TPU v2 发布于 2017 年 5 月 ,它是一款定制的专用集成电路(ASIC)。每个 TPU v2 设备可以在单板上供给 180 TFLOPS 的峰值算力。一年之后 TPU v3 发布,它将峰值功能进步到了 420 TFLOPS。云 TPU 于 2018 年 2 月开搜搜贷始供给学术拜访权限。这篇论文中运用的便是云 TPU。

英伟达的 Tesla V100 Tensor Core 是一块具有 Volta 架构的 GPU,于 2017 年发布。

CPU 现已被证明在某些特定的用例中会愈加合适练习,因而它也是一个重要的途径余士新,应该被包括在比较内容中。

这项研讨标明,没有一个途径在一切的场景中是最佳的。根据它们各自的特色,不同的途径可认为不同的模型供给优势。此外,由于深度学习模型的快速改善和改变,基准检验也有必要继续更新并常常进行。

最近的基准检验好像都约束人流后留意事项,TPU、GPU、CPU深度学习途径哪家强?有人做了一个基准检验研讨,周口天气预报于恣意的几个 DNN 模型。只盯着闻名的 ResNet50 和 Transformer 等模型可能会得到误导性的定论。例如,Transformer 是一个大型的全衔接模型,它在 TPU 上的练习速度比在 GPU 上快了 3.5 倍;可是,重视这一个模型并不如懿传荣佩能提醒 TPU 在逾越 4000 个节点的全衔接网络上呈现的严峻的内存带宽瓶颈。这凸显了为某些模型去过度优化硬件和(或)编译器的危险。

新一代硬件基准检验

为了对最先进的深度学习途径进行基准检验,这篇论文提出了一个用于练习的深度学习模型调集。为了支撑广泛和全面的基准检验研讨,研讨者艹立句引入了 ParaDnn 这一参数化的深度学习基准检验组件。ParaDnn 可以无缝地生成数千个参数化的多层模型,这些模型由全衔接(FC)模型、卷积神经网络(CNN)以及循环神经网络(RNN)组成。ParaDnn 答应对参数规划在近乎 6 个数量级的模型上进行体系基准检验,这现已逾越了现有的基准检验的规模。

研讨者将这些参数化模型与 6 个实践模型结合起来,作为广泛模型规模内的共同点,以供给对硬件途径的全面基准检验。表 1 总结了本文中描绘的十 14 个调查成果和见地,这些调查和见地可认为未来的特定范畴架构、体系和软件规划供给启示信息。

表 1:本文部分分组的首要调查和见地总结

研讨者特意标记了经过 ParaDnn 得到的见地。他们从论文第 4 部分隔人流后留意事项,TPU、GPU、CPU深度学习途径哪家强?有人做了一个基准检验研讨,周口天气预报始对 TPU v2 和 v3 的架构进行深入探讨,提醒了算力中的架构瓶颈、内存带宽、多片负载以及设备-主机平衡(第 1 到 5 个调查)。论文第五部分供给了 TPU 和 GPU 功能的全面比较,突出了这两个途径的重要差异(第 6 到第 11 个调查)。最终的 3 个调查在论文第六部分有具体描绘,探讨了专用软件仓库和量化数据类型带来的功能改善。

清晰本研讨的约束性非常重要。这篇论文侧重研讨了现在的架构和体系规划中可以优化的可能性,由于它们为未来的规划供给了名贵的经历。优化的细节不属于本文的研讨规模。例如,本文的剖析只聚集于练习而不是推理。作者没有研讨多 GPU 途径或 256 节点 TPU 体系的功能,二者可能会导致不同的定论。

深度学习基准检验

深度学习(DL)最近的成功驱动了关于基准检验组件的研讨。现有的组件首要有两种类型:一是像 MLPerf,、Fathom、BenchNN、以及 BenchIP 这种实践的基准检验;二是 DeepBench、BenchIP 这类微基准检验,可是它们都有必定的约束。

这些组件仅包括今日已有的深度学习模型,跟着深度学习模型的快速开展,这些模型可能会过期。而且,它们没有提醒深度学习模型特点和硬件途径功能之间的深入见地,由于基准检验仅仅巨大的深度学习空间中的稀少点罢了。

ParaDnn 对这项研讨现有的基准检验组件做出了弥补,它具有以上这些办法的长处,方针是供给「端到端」的、可以包括现有以及未来运用的模型,而且将模型参数化,以探究一个更大的深度神经网络特点的规划空间。

图 石河子邱伟1:这篇文章中一切负载的可练习参数的数量。ParaDnn 中的模型参数规模在 1 万到挨近十亿之间,如图所示,它要比实践模型的参数规模更大,如图中的点所示。

硬件途径

作者对硬件途径的挑选反映了在论文提交时,云途径上广泛可用的最新装备。模型的具体目标在表 3 中。

表 3:作为研讨目标的硬件途径

试验图表

吴纯钢琴家

图 2(a)–(c) 标明,这三种办法的 FLOPS 运用率是跟着 batch size 的增大而增大的。除此之外,全衔接青纱帐边的女性网络的 FLOPS 运用率跟着每层节点数的添加而增大(图 2(a));卷积神经网络的 FLOPS 运用率跟着滤波器的添加而增大,循环神经网络的 FLOPS 运用率跟着嵌入尺度的增大而增大。图 2(a)–(c) 中的 x 轴和 y 轴是图 2(d)–(f) 中具有最大绝对值的超人流后留意事项,TPU、GPU、CPU深度学习途径哪家强?有人做了一个基准检验研讨,周口天气预报参数。

图 2:FLOPS 重生之漆黑女爵的运用率及其与超参数的相关性。(a)–(c) 表明参数化模型的 FLOPS 运用率。(d)–(f) 运用线性回归权重量化了模型超参数对 FLOPS 运用率的影响。

图 3:全衔接网络和卷积神经网络在 TPU 上的 Roofline。矩阵相乘(MatMul)运算的负载是核算密集型的。即使是 Transformer 和 ResNet-50 这样的核算密集型模型也具有 10% 以上的内存约束运萌族速泡净算。(a) 和 (c) 展现了参数化模型和实践模型的 roofline。(b) 和 (d) 展现了运算的分化。

图 4:多片体系中的通讯开支是不能疏忽的,可是它会跟着 batch size 的增大而减小。

图 5:FLOPS 运用率(顶部)和运用 float32 和 bfloat16 的实践模型在具有以及没有数据预备情况下的喂料时刻(设备等候数据的时刻)(底部)。具有较大喂料时刻百分比的模型(例如 RetinaNet 和 SqueezeNet)会遭到数据喂入的约束。

图 6:(a) 是 TPU v3 在运转端到端模型时与 v2 比较的加快比。(b) 和 (c) 是全衔接和卷积神经网络的加快比。TPU v3 更大的内存支撑两倍的 batch size,所以假如它们具有更大的 batch size,内存受限的运算会具获宠物老友记住三倍加快,假如没有更大的 batch size,则是 1.5 倍的加快。在 v3 上核算受限的运算具有 2.3 倍的加快。赤色的线 (75 Ops/Byte) 是 TPU v2 的 roofline 的人流后留意事项,TPU、GPU、CPU深度学习途径哪家强?有人做了一个基准检验研讨,周口天气预报拐点。

图 7:具有固定层(64)的全衔接模型的 Examples/second(样本/秒)。Examples/second 跟着节点的增多而减小,跟着 batch size 的增大而增大。白色方块表明模型遇到了内存不足的问题。CPU 途径运转最大的模型,由于它具有最大的内存。

图 8:具有大 batch size 的小型全衔接模型更偏好 TPU,具有小 batch size 的大型模型愈加偏好 GPU,这意味着缩短阵列对大型矩阵更好,在 GPU 上对小型矩阵做改换愈加灵敏。

图 9:比较于 CPU,具有大 batch size 的大型全衔接模型更合适 GPU,由于 CPU 的架构可以更好地运用额定的并行。

图 10:(a)–(c):对大型卷积神经网络而言,TPU 是比 GPU 更好的挑选,这意味着 TPU 是对卷积神经网络做了高度优化的。(d)–(e):虽然 TPU 对 RNN 是更好的挑选,可是关于嵌入向量的核算,它并不像 GPU 相同灵敏。

图 11:(顶部)在一切的负载上 TPU 相对 GPU 的张文友加快比。需求留意的是,实践负载在 TPU 上会运用比 GPU 上更大的 batch size。ResNet-50 的英伟达 GPU 版别来自于文献 [9]。(底部)一切途径的 FLOPS 运用率比照。

图 12:(a)TPU 功能跟着 TensorFlow 版别更新发作的改变。一切的 ParaDnn 模型都有提高:Transformer, RetinaNet, 和 Re人流后留意事项,TPU、GPU、CPU深度学习途径哪家强?有人做了一个基准检验研讨,周口天气预报sNet-50 提高安稳。(b)CUDA 和 TF 的不同版别上 GPU 的加快比。CUDA 9.2 对卷积神经网络的提高要比其他 ParaDnn 模型更多,对 ResNet-50 的提高要比其他实践模型更多。CUDA 10 没有提高 RNN 和 SqueezeNet。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

吉利熊猫,夏赢论金:11.19 黄金迎来上涨之路仍是反弹?,威尼斯