来源:arXiv
编辑:闻菲,张易
【新智元导读】你或许还记得Facebook研究人员使用256块GPU在1小时内训练完ImageNet的新闻。现在,这项纪录被刷新:伯克利、TACC和UC戴维斯的研究人员使用新算法,在24分钟内训练完ImageNet的Alex模型,创下新的世界纪录。同时,研究人员表示他们仅使用了120万美元的硬件(相比Facebook当时410万美元),也是使用ResNet-50在一小时内进行ImageNet训练迄今最低的预算。
此前我们报道过, Facebook 人工智能实验室与应用机器学习团队合作,提出了一种新的方法,能够大幅加速机器视觉任务的模型训练过程,仅需 1 小时就训练完 ImageNet 这样超大规模的数据集。在最高性能的情况下,Facebook 的新系统,在不牺牲生成模型质量的前提下,每秒使用 256 颗 GPU 训练 40,000 张图像。
Facebook 1 小时训练 ImageNet 的论文发布以后,引起了很多研究者的关注。日前,UC Berkeley、TACC 和 UC Davis 的研究人员发表论文,宣布只用了 24 分钟就完成了 100-epoch ImageNet 的 AlexNet 训练;同时,和 Facebook 的研究结果(Goyal et al. 2017)一样,我们用一小时完成了 90-epoch ImageNet 的 ResNet-50 的训练。然而,我们的硬件只用了 120 万美元,比 Facebook 的410 万低了 3.4 倍。让我们来关注一下他们的研究成果。
花 24 分钟用 AlexNet 完成了 100-epoch ImageNet 的训练;仅用120万美元完成了 90-epoch ImageNet 的 ResNet-50 的训练
对于深度学习应用来说,更大的数据集和更大的模型能够带来准确度的显著提升(Amodei et al.2015),但代价是会花费更长的训练时间。举例来说,用英伟达M40 GPU 完成 90-epoch ImageNet-1k 的ResNet-50 训练要花 14 天。
这一训练总共要进行 10 的 18 次方的单精度运算。另一方面,世界上目前最快的超级计算机每秒能完成 2*10的17次方 的单精度运算(Dongarra et al. 2017)。如果我们能够充分利用超级计算机进行 DNN 训练,理论上我们可以在用5 秒钟完成 90-epoch ImageNet-1k 的ResNet-50 训练。然而,目前 DNN 快速训练的瓶颈在于算法层面。具体来说,目前的 batch size (e.g. 512) 太小,无法有效利用多处理器。因此,我们需要设计出用于可规模化的 DNN 训练的并行算法。
对于大规模 DNN 训练来说,使用更大的batch size 是必须的。然而,目前方法仅能将 batch size 分别扩展到 1024 (用于 AlexNet)和 8192 (用于 ResNet-50)。更大的 batch size 会带来明显的精度损失。本论文中,我们使用了 Layer-wiseAdaptive Rate Scaling(LARS)算法(You, Gitman, andGinsburg 2017),使我们可以在不损失精度的条件下将 batch size 扩展到很大(e.g. 32k)。
较大的 batch size 使我们可以有效使用分布系统。我们花了24 分钟就完成了 100-epoch ImageNet 的 AlexNet 训练,创造了世界纪录。和 Facebook 的研究结果(Goyal et al. 2017)一样,我们用一小时完成了 90-epoch ImageNet 的 ResNet-50 的训练。然而,我们的硬件只用了 120 万美元,比 Facebook 的410 万低了 3.4 倍。
用英伟达 M40 GPU 完成 90-epoch ImageNet-1k 的ResNet-50 训练要花14 天。这一训练总共要进行 10 的 18 次方的单精度运算。另一方面,世界上目前最快的超级计算机每秒能完成2*10的17次方的单精度运算(Dongarra et al. 2017)。如果我们能够充分利用超级计算机进行 DNN 训练,理论上我们可以在用5 秒钟完成 90-epoch ResNet-50 训练。然而,目前 DNN 快速训练的瓶颈在于算法层面。具体来说,目前的 batch size 太小(e.g. 512),无法有效利用多处理器。
在大规模 DNN 训练中,我们着眼于在固定epochs 中不损失准确度的条件下使用大批量数据并行同步 SGD。 LARS 算法(You, Gitman, and Ginsburg 2017)使我们可以将 batch size 扩展到很大(e.g. 32K)。我们花 24 分钟用 AlexNet 完成了 100-epoch ImageNet 的训练,创造了世界纪录。和 Facebook 的研究结果(Goyal et al. 2017)一样,我们用一小时完成了 90-epoch ImageNet 的 ResNet-50 的训练。然而,我们的硬件只用了 120 万美元,比 Facebook 的410 万低了 3.4 倍。
大批量训练DNN的难题:能够在5秒内训练完50层的ResNet吗?
使用参数服务器的异步方法无法保证在大型系统上稳定。对于非常大的DNN训练,数据并行同步方法更加稳定。这个想法也很简单——通过为SGD使用大的批量大小,每次迭代的工作可以轻松分配到多个处理器。理想情况下,ResNet-50需要772亿次单精度操作来处理一个225x225的图像。如果我们为ImageNet数据集运行90次(epoch),运算数为90*128万*77.2亿(10的18次方)。目前,最强大的超级计算机每秒可完成200×1015次单精度运算。如果有一种算法可以充分利用超级计算机,我们可以5秒内完成ResNet-50的训练。
为此,我们需要让算法使用更多的处理器,并在每次迭代时加载更多的数据。我们使用一台NVIDIA M40 GPU来说明一台机器的情况。在一定范围内,更大的批量将使单个GPU的速度更高(图2)。原因是低级矩阵计算库将更有效。对于使用ImageNet训练AlexNet模型,每个GPU的最佳批量大小为512。 如果想要使用许多GPU并使每个GPU都有效,我们需要更大的批量大小。例如,如果我们有16个GPU,那么我们应该将批量大小设置为16×512 = 8192。理想情况下,如果我们固定总数量访问量,随着处理器数量的增加相应呈线性增加批量大小,那么SGD迭代次数将会线性减小,每次迭代的时间成本保持不变,因此总时间也将随处理器数量线性减少(表1)。
然而,如果批量大的SGD运行相同数量的epoch,精度通常比小的批量要低得多,而目前也尚未有一种可以有效地使用非常大的批量的算法。表2显示了标准基准的目标精度。例如,当设置AlexNet的批量大于1024或ResNet-50的批量大小大于8192时,测试精度将显着降低(表4和图3)。
在训练大的批量的时候,我们需要确保在运行相同数量的epoch的情况下,实现与小的批量差不多的测试精度。在这里我们固定了epoch的数量,因为:在统计上,一个epoch意味着算法会触及整个数据集一次;而在计算上,固定epoch的数量意味着固定浮点运算的数量。训练大批量最先进的方法包括两种技术:
通过这些技术,研究人员可以在一定范围内使用相对较大的批量(表3)。然而,我们观察到,即使最先进的方法,也只能将批量大小缩小到AlexNet的1024,而ResNet-50,更是只能将批量大小缩小为8192。如果我们将AlexNet的批量增加到4096,我们在100个epoch只能达到53.1%的精度(表4)。而我们的目标是,即使使用大批量,也能实现58%的精度。
层次自适应速率缩放(LARS),扩大批量,提升精度
为了提高大批量训练的准确性,我们使用了一种新的更新学习率(LR)规则。在这里我们考虑单机情况,使用w = w - η∇w来更新权重。使用数据并行方法,可以用相同的方式处理多机器版本。
每个层都有自己的权重w和梯度∇w。标准SGD算法对所有层使用相同的LR(η)。然而,从我们的实验中,我们观察到不同的层可能需要不同的LR。原因是||w||2 和 ||∇w||2 之间的比率不同的层有很大的不同。
例如,我们观察到conv1.1层的||w||2/||∇w||2仅为20(表5)。但是,对于fc6.1层,||w||2/||∇w||2则是3690。为加快DNN训练,对于fc6.1层,用户需要使用大的LR。然而,这个大的LR可能导致conv1.1层出现问题。我们认为,这是大批量训练难以优化的重要原因。Goyal等人在2017年提出了预热策略来解决这个问题。预热策略适用于ResNet50训练(批次大小≤8192)。但是,仅使用这种方法,对于批量大小 >1024的AlexNet和批量大小 >8192的ResNet-50不起作用。
在本文中,我们使用LARS算法来解决这个问题。基本LR规则在等式(1)中定义。l是缩放因子,我们在AlexNet和ResNet训练中将l设置为0.001。γ是用户的调整参数。通常一个好的γ,值都在[1,50]之间。在这个等式中,不同的层可以有不同的LR。实际上,我们向SGD添加动量(用μ表示)和权重衰减(用β表示),并对LARS使用以下序列:
得到每个可学习参数的本地LR,
得到每个层的真实LR,为η=γ×α;
通过∇w=∇w+βw更新梯度;
通过a =μa+η∇w更新加速项a;
用w = w - a来更新权重。
使用这种方法预热(warmup),用有大的批量的SGD可以实现与基准相同的精度(表6)。为了扩展到更大的批量大小(例如32k),我们需要将本地响应规范化(LRN)更改为批量归一化(BN)。我们在每个卷积层之后添加BN。从图3可以清楚地观察到LARS的影响。
LARS可以帮助ResNet-50保持高的测试精度。当前的方法(线性缩放和预热)对于批量大小为16k和32k(68%和56%)的精度要低得多。目标精度约为73%。
我们在本文中使用的数据集是ImageNet(1k个类别)(Deng等人,2009)。我们的ResNet-50基线的准确性略低于最先进的结果(73%对76%)。原因是我们没有使用数据增强。对于没有数据增强的版本,我们可以得到最先进的精度(90个epoch,73%)。本文中提到的精度意味着Top-1测试精度。时间表示训练时间。对于KNL实现,我们有两个版本:
基于Caffe(Jia等人,2014)编写了KNL代码,用于单机处理,并使用MPI(Gropp等人,1996)进行KNL集群上不同机器之间的通信。
使用Intel Caffe,支持英特尔MLSL(机器学习扩展库)的多节点训练,使用Infiniband作为通信的互连网络。
我们使用TACC Stampede 2超级计算机作为我们的硬件平台。
实现用ImageNet训练AlexNet当前最快结果:24分钟100 epoch
此前,英伟达公司报告说,使用一台DGX-1工作站可以在2小时内完成AlexNet在ImageNet训练90次(epoch)。不过,他们当时使用的是半精度或FP16,计算成本是标准单精度操作的一半。我们用标准的单精度的AlexNet在ImageNet训练100次。在一个NVIDIA DGX-1站上,批量大小为512需要6小时9分钟。由于LARS算法(You,Gitman和Ginsburg 2017),我们能够使用大的批量大小实现类似的精度。
如果我们将批量大小增加到4096,则在一台NVIDIA DGX-1(一台机器上最快的版本)上只需要2小时10分钟。因此,在使用LARS的情况下,使用大批量可以显著加速DNN训练。
对于批量大小为32K的AlexNet,我们将算法缩放为512 KNL芯片(约32K处理器或内核)。每个KNL的批量大小是64,所以整体批量大小是32678。我们在24分钟内完成了100 epoch的训练。据我们所知,这是使用ImageNet训练Alex最快的速度,也创下了世界纪录。总体比较见表7。
当前使用ResNet-50进行ImageNet训练的最低预算
Facebook(Goyal等人,2017年)在32个CPU和256个NVIDIA P100 GPU(32个DGX-1站)上,在一小时内完成了ResNet-50的90 epoch的ImageNet训练。考虑到一台DGX-1工作站的费用为129000美元,整个系统的成本约为32×129,000 = 410万美元。
将批量缩放到32K后,我们可以使用便宜的芯片。我们使用512 KNL芯片,每KNL的批量是64。我们也在一个小时内完成了90 epoch的训练。但是,我们的系统成本要少得多。我们的KNL芯片的版本是英特尔至强融合处理器7250,成本为2436美元。我们系统的成本只有约2436×512 = 120万美元。这也是使用ResNet-50在一小时内进行ImageNet训练迄今最低的预算。
需要指出,我们不隶属于英特尔或NVIDIA,而且我们对GPU或KNL也没有任何偏好。我们只想表明,我们可以用更少的预算(便宜3.4倍)实现相同的效果。总体比较见表8。
【号外】新智元正在进行新一轮招聘,飞往智能宇宙的最美飞船,还有N个座位
点击阅读原文可查看职位详情,期待你的加入~
没有评论:
发表评论