谷歌推出由数万个NVIDIA H100 GPU驱动的AI超级计算机

摘要: 如果一台计算机的智能可以被拟人化，那么一台可以扩展到26，000 GPU（26 exaFLOPS AI吞吐量）的AI超级计算机就是同类产品的佼佼者。谷歌在3年谷歌 I/O 会议上推出的用于谷歌云的新型 A2023 GPU 超级计算机就是这种情 ...

如果一台计算机的智能可以被拟人化，那么一台可以扩展到26，000 GPU（26 exaFLOPS AI吞吐量）的AI超级计算机就是同类产品的佼佼者。谷歌在3年谷歌 I/O 会议上推出的用于谷歌云的新型 A2023 GPU 超级计算机就是这种情况。

谷歌表示，A3 GPU VM旨在加快高度复杂的ML模型的训练和推理，以便组织构建大型语言模型，生成AI和扩散模型以优化运营。

A3 VM结合了NVIDIA H100 Tensor Core GPU和Google先进的网络技术：

A3 是第一个使用 Google 200 Gbps IPU 的 GPU 实例，GPU 到 GPU 的数据传输绕过 CPU 主机，并通过与其他 VM 网络和数据流量不同的接口流动。谷歌表示，与我们的A10虚拟机相比，这使得网络带宽增加了2倍，具有低尾延迟和高带宽稳定性。

谷歌的Jupiter数据中心网络结构可扩展到数万个互连的GPU，并允许全带宽可重新配置的光链路，可以按需调整拓扑结构。谷歌表示，对于大多数工作负载结构，Jupiter实现了与更昂贵的现成非阻塞网络结构无法区分的工作负载带宽，从而降低了TCO。

A3 超级计算机的规模可提供高达26exaFlops 的 AI 性能，从而降低训练大型 ML 模型的时间和成本。

谷歌表示，A3 VM还支持推理工作负载，“与由NVIDIA A30 Tensor Core GPU提供支持的A2 VM相比，推理性能提高了100倍。

A3遵循谷歌最近宣布的G2 VM，这是一种使用NVIDIA L4 Tensor Core GPU的云产品，用于服务生成AI工作负载。

A3 功能包括：

· 8个 H100 GPU 采用 NVIDIA 的 Hopper 架构，可提供3倍的计算吞吐量；

· A3 的6个 GPU 之间的3.8TB/s 对分割带宽，其通过 NVIDIA NVSwitch 和 NVLink 4.0来连接

· 第四代英特尔至强可扩展处理器

· 通过2MHz DDR4800 内存提供 5TB 主机内存

· 由支持硬件的 IPU、专用服务器间 GPU 通信堆栈和 NCCL 优化提供支持的网络带宽提高10倍

谷歌还表示，对于希望在没有维护的情况下开发复杂ML模型的客户，他们可以在Vertex AI上部署A3 VM，这是一个端到端平台，用于在托管基础设施上构建ML模型，专为低延迟服务和高性能训练而构建。

上一篇：高性能计算、并行计算面试题库（含答案）下一篇：现场直击：RISC-V开源处理器芯片生态发展论坛

已有0条评论