- 2023-04-21
- 阅读()
- 来源:互联数据
2023年,未来已来,以ChatGPT为代表的技术表明机器在自然语言的处理能力上已实现质的飞跃,除百度、华为、腾讯、阿里外,在A股超30个国产大模型混战:华为百度阿里腾讯,谁能成为“中国的OpenAI”?。现在普通企业个人需要运用gpu云服务器来深度学习,可以登录AWS控制台,从一系列基于GPU的Amazon EC2实例中进行选择。
AWS的gpu云服务器用来深度学习:http://www.hkt4.com/
一、深度学习项目如何选择AWS平台gpu云服务器?
您可以启动具有不同GPU内存大小(8 GB、16 GB、32 GB)、NVIDIA GPU体系结构(安培、图灵、沃尔塔、麦克斯韦、开普勒)和不同功能(FP64、FP32、FP16、INT8、TensorCores、NVLink)以及每个实例的GPU数量(1、2、4、8、16)的GPU实例。您还可以选择具有不同数量VCPU、系统内存和网络带宽的实例,并添加一系列存储选项(对象存储、网络文件系统、块存储等)。
有选择总是一个好事,虽然选项太多让人苦恼。我写这篇文章的目的是为您提供一些指导,告诉您如何在AWS上为您的深度学习项目选择正确的GPU实例。我将讨论各种EC2 GPU实例的关键特性和优点,以及最适合每种实例类型和大小的工作负载。如果您是AWS新手,或是GPU新手,或是深度学习新手,我希望您能找到为项目做出正确选择所需的信息。
二、为什么选择正确的GPU实例,而不仅仅是正确的GPU?
GPU是深度学习系统的主力,但最好的深度学习系统不仅仅是GPU。您必须选择适当的计算能力(CPU、GPU)、存储、网络带宽和优化软件,以最大限度地利用所有可用资源。
一些深度学习模型需要更高的系统内存或更强大的CPU来进行数据预处理,而另一些模型可能运行良好,CPU内核更少,系统内存更低。这就是为什么您会看到许多Amazon EC2 GPU实例选项,其中一些具有相同的GPU类型,但CPU、存储和网络选项不同。
如果您是AWS新手,或者是AWS深度学习新手,那么做出这个选择可能会让您感到难以承受,我将指导您完成这个过程。
AWS上,您可以访问两个GPU实例族—EC2实例的P族和G族。P系列(P3,P2)和G系列(G4,G3)实例下的不同代基于不同代的GPU体系结构,如下所示。
每个实例族(P和G)包括实例类型(P2、P3、G3、G4),每个实例类型包括大小不同的实例。每个实例大小都有特定的vCPU计数、GPU内存、系统内存、每个实例的GPU以及网络带宽。下图显示了所有可用选项的完整列表。
三、适合深度学习项目的AWS平台gpu云服务器种类:
1、Amazon EC2 P4:AWS上性能最高的深度学习培训实例。
P4实例提供对基于NVIDIA安培体系结构的NVIDIA A100 GPU的访问。您可以为每个实例启动一个多GPU,每个实例有8个A100 GPU,每个GPU有40 GB的GPU内存、96个vCPU和400 Gbps的网络带宽,以实现记录设置训练性能。
深度学习培训通常以单精度或FP32完成。FP32 IEEE标准格式的选择早于深度学习,因此硬件和芯片制造商已开始支持更适合深度学习的新精度类型。这是一个硬件进化以满足应用程序需求的完美例子,而开发人员必须更改应用程序才能在现有硬件上工作。
英伟达A100包括用于深度学习的特殊内核,称为张量核,以执行混合精度训练,这是首次在VoTA体系结构中引入的。深度学习框架可以使用张量核以半精度(FP16)执行矩阵乘法,以单精度(FP32)进行累加,而不是以单精度(FP32)训练模型。这通常需要更新您的培训脚本,但可能会导致更高的培训性能。每个框架处理这个问题的方式都不同,所以请参考框架的官方指南(TensorFlow、PyTorch和MXNet)了解混合精度。
英伟达A100GPU还支持两种新的精确格式——BF16和TunSoRoFLAT 32(TF32)。TF32的优点是英伟达A100上的TF32张量核心可以从深度学习框架读取FP32数据,并使用并产生标准的FP32输出,但内部使用的内部精度降低。这意味着,与通常需要对训练脚本进行代码更改的混合精度训练不同,TensorFlow和PyTorch等框架可以支持TF32开箱即用。BF16是IEEE FP16标准的替代品,具有更高的动态范围,更适合在不损失精度的情况下处理梯度。TensorFlow支持BF16已有一段时间了,现在您可以在使用p4d时利用NVIDIA A100 GPU上的BF16精度。24xlarge实例。
你可以访问8英伟达A100 GPU,拥有40 GB的GPU内存,与第三代NVLink互连,理论上是GPU带宽的两倍,相比之下,第二代NVLink在NPIDIA V100上可以使用P3实例类型,我们将在下一节中讨论。这就是p4d。24xlarge实例类型非常适合分布式数据并行训练以及不适合单个GPU的大型模型的模型并行训练。该实例还允许您访问96 vCPU、1152 GB系统内存(EC2 GPU实例上有史以来最高)和400 Gbps网络带宽(EC2 GPU实例上有史以来最高),这对于实现大规模分布式培训作业的近似线性扩展非常重要。
在这个实例上运行NVIDIA smi,您可以看到GPU内存是40GB。这是每个GPU最大的GPU内存,你可以在AWS上找到。如果你的模型很大或者你正在处理3D图像或其他大数据批处理,那么这就是要考虑的例子。运行nvidia smi拓扑矩阵,您将看到NVLink用于GPU之间的通信。与PCIe相比,NVlink提供了更高的GPU间带宽,这意味着多GPU和分布式培训作业将运行得更快。
2、EC2 P3:高性能、低成本的深度学习培训
P3实例提供对基于NVIDIA Volta体系结构的NVIDIA V100 GPU的访问,您可以为每个实例启动一个GPU,也可以为每个实例启动多个GPU(4个GPU,8个GPU)。单个GPU实例p3。2xlarge可作为深入学习培训的日常驱动力。以及最有能力的实例p3dn。24xlarge使您能够访问8 x V100,具有32 GB GPU内存、96个VCPU、100 Gbps网络吞吐量,是分布式培训的理想选择。
英伟达V100还包括张量核来运行混合精密训练,但不提供TF32和BF16精密类型引入在英伟达A100在P4实例上提供。然而,P3实例有4种不同的大小,从单个GPU实例大小到8个GPU实例大小,使其成为灵活培训工作负载的理想选择。让我们看看下面的每个实例大小esp3。2x大,p3。8XL码,p3码。16xlarge和p3dn.24xlarge。
这应该是你大部分深度学习培训工作的出发点。您可以访问一个具有16 GB GPU内存、8个VCPU、61 GB系统内存和高达10 Gbps网络带宽的NVIDIA V100 GPU。在撰写本文时,V100是云中可用的速度最快的GPU,它支持Tensor内核,如果您的脚本可以利用混合精度训练,则可以进一步提高性能。
你也可以使用Amazon EC2、Amazon SageMaker笔记本实例配置此实例,或者使用SageMaker Python SDK向Amazon SageMaker托管实例提交培训作业。如果你启动EC2 p3。2xlarge实例并运行nvidia smi命令,您可以看到实例上的GPU是支持NVLink的V100-SXM2版本。在内存使用下,您将看到它有16GB的GPU内存。如果你需要超过16 GB的GPU内存用于大模型或大数据大小,那么你应该考虑P3DN.24xlarge
3、Amazon EC2 G4:经济高效的深度学习培训和高性能推理部署的最佳实例
G4实例提供对基于NVIDIA图灵体系结构的NVIDIA T4 GPU的访问。您可以为每个实例启动一个GPU,也可以为每个实例启动多个GPU(4个GPU,8个GPU)
4、Amazon EC2 P2:培训和原型开发的成本效益,但首先考虑G4实例
P2实例使您可以访问英伟达K80 GPU,基于Nvidia KePub体系结构。开普勒架构已经有几代人了(开普勒->麦克斯韦->帕斯卡->沃尔塔->图灵),因此它们不是最快的GPU。它们确实具有一些特定的功能,例如全精度(FP64)支持,这使得它们对于依赖于额外精度的高性能计算(HPC)工作负载具有吸引力和成本效益。P2实例有3种不同的大小:P2。xlarge(1个GPU),p2。8XL(8 GPU),p2。16xlarge(16gpu)
5、Amazon EC2 G3:主要用于图形工作负载,对深度学习具有成本效益,但首先考虑P2和G4实例
G3实例使您可以访问基于NVIDIA麦斯威尔架构的英伟达M60 GPU。NVIDIA将M60 GPU称为虚拟工作站,并将其定位于专业图形,但您也可以将其用于深入学习。然而,对于P3和G4实例的深度学习,有了更强大、更具成本效益的选项,G3实例应该是深度学习的最后一个选项。
AWS在所有Amazon EC2 GPU实例上对其进行鉴定和测试,其中包括针对网络、存储访问的AWS优化,以及最新的NVIDIA和Intel驱动程序和库。深度学习框架的上下游依赖于更高级别的调度器和编排器以及更低级别的基础设施服务。通过使用AWS AMIs和AWS DLC,您知道它已经过端到端测试,并保证为您提供最佳性能。
- 上一篇:初次尝试,怎么配置量化交易服务器?
- 下一篇:海外服务器如何加速服务国内用户?