粉时代

亚马逊网络服务启动Nvidia Ampere驱动的实例

粉时代

亚马逊网络服务(AWS)宣布了一个新的基于GPU的实例Amazon P4d的可用性,该实例基于Nvidia的新Ampere架构,并且两家公司都在宣称性能。

AWS十年来一直提供基于GPU的实例,最新一代的实例称为P3。AWS和Nvidia都声称,与P3实例相比,P4d实例在机器学习培训和高性能计算工作负载方面的性能提高了三倍,成本降低了60%,GPU内存增加了2.5倍。

根据Nvidia的说法,与默认的FP32精度相比,使用FP16实例可以将机器学习模型的训练时间减少三倍,而使用TF32则可以将训练时间减少多达六倍,但是还可以训练更大,更复杂的模型。

这些也是一些重量级的实例。在一个EC2实例中,具有八个Nvidia A100 GPU的P4d实例能够提供高达2.5 petaflops的混合精度性能和320GB的高带宽GPU内存。AWS表示,P4d实例是第一个通过Elastic Fabric Adapter(EFA)和Nvidia GPUDirect RDMA网络接口提供400 Gbps网络带宽的设备,以实现跨服务器的GPU之间的直接通信,从而降低延迟和提高扩展效率。

每个P4d实例还提供96个Intel Xeon可扩展(级联湖)vCPU,1.1TB系统内存和8TB本地NVMe存储,以减少单节点训练时间。通过将上一代P3实例的性能提高一倍以上,P4d实例可以将训练机器学习模型的成本降低多达60%。

“随着数据变得越来越丰富,客户正在训练具有数百万甚至数十亿个参数的模型,例如用于自然语言处理以进行文档摘要和问题解答,用于自动驾驶汽车的对象检测和分类,用于大规模内容审核的图像分类等参数,电子商务网站的推荐引擎,以及智能搜索引擎的排名算法,所有这些都需要增加网络吞吐量和GPU内存。” AWS在一份声明中说。

该公司表示,客户可以使用带有Amazon Elastic Kubernetes服务(Amazon EKS)或Amazon Elastic Container Service(Amazon ECS)库的AWS深度学习容器运行P4d实例。为了获得更全面的管理体验,客户可以通过Amazon SageMaker使用P4d实例,该实例旨在帮助开发人员和数据科学家快速构建,训练和部署ML模型。

HPC客户可以将AWS Batch和AWS ParallelCluster与P4d实例结合使用,以帮助协调作业和集群。P4d实例支持所有的ML学习框架,包括TensorFlow,PyTorch和Apache MXNet,使客户可以灵活地选择他们喜欢的框架。

P4d实例在美国东部(弗吉尼亚北部)和美国西部(俄勒冈)地区可用,并计划在不久的将来提供更多的可用性。AWS实例的起价为每小时32.77美元,但一年保留实例的价格降至每小时19.22美元,三年下来为11.57美元。