如果一台计算机的智能可以被拟人化,那么一台可以扩展到26,000 GPU(26 exaFLOPS AI吞吐量)的AI超级计算机就是同类产品的佼佼者。谷歌在3年谷歌 I/O 会议上推出的用于谷歌云的新型 A2023 GPU 超级计算机就是这种情况。 谷歌表示,A3 GPU VM旨在加快高度复杂的ML模型的训练和推理,以便组织构建大型语言模型,生成AI和扩散模型以优化运营。 A3 VM结合了NVIDIA H100 Tensor Core GPU和Google先进的网络技术: A3 是第一个使用 Google 200 Gbps IPU 的 GPU 实例,GPU 到 GPU 的数据传输绕过 CPU 主机,并通过与其他 VM 网络和数据流量不同的接口流动。谷歌表示,与我们的A10虚拟机相比,这使得网络带宽增加了2倍,具有低尾延迟和高带宽稳定性。 谷歌的Jupiter数据中心网络结构可扩展到数万个互连的GPU,并允许全带宽可重新配置的光链路,可以按需调整拓扑结构。谷歌表示,对于大多数工作负载结构,Jupiter实现了与更昂贵的现成非阻塞网络结构无法区分的工作负载带宽,从而降低了TCO。 A3 超级计算机的规模可提供高达26exaFlops 的 AI 性能,从而降低训练大型 ML 模型的时间和成本。 谷歌表示,A3 VM还支持推理工作负载,“与由NVIDIA A30 Tensor Core GPU提供支持的A2 VM相比,推理性能提高了100倍。 A3遵循谷歌最近宣布的G2 VM,这是一种使用NVIDIA L4 Tensor Core GPU的云产品,用于服务生成AI工作负载。 A3 功能包括: · 8个 H100 GPU 采用 NVIDIA 的 Hopper 架构,可提供3倍的计算吞吐量; · A3 的6个 GPU 之间的3.8TB/s 对分割带宽,其通过 NVIDIA NVSwitch 和 NVLink 4.0来连接 · 第四代英特尔至强可扩展处理器 · 通过2MHz DDR4800 内存提供 5TB 主机内存 · 由支持硬件的 IPU、专用服务器间 GPU 通信堆栈和 NCCL 优化提供支持的网络带宽提高10倍 谷歌还表示,对于希望在没有维护的情况下开发复杂ML模型的客户,他们可以在Vertex AI上部署A3 VM,这是一个端到端平台,用于在托管基础设施上构建ML模型,专为低延迟服务和高性能训练而构建。 |
说点什么...