猿代码 — 科研/AI模型/高性能计算
0

谷歌推出由数万个NVIDIA H100 GPU驱动的AI超级计算机

摘要: 如果一台计算机的智能可以被拟人化,那么一台可以扩展到26,000 GPU(26 exaFLOPS AI吞吐量)的AI超级计算机就是同类产品的佼佼者。谷歌在3年谷歌 I/O 会议上推出的用于谷歌云的新型 A2023 GPU 超级计算机就是这种情 ...
如果一台计算机的智能可以被拟人化,那么一台可以扩展到26,000 GPU(26 exaFLOPS AI吞吐量)的AI超级计算机就是同类产品的佼佼者。谷歌在3年谷歌 I/O 会议上推出的用于谷歌云的新型 A2023 GPU 超级计算机就是这种情况。

谷歌表示,A3 GPU VM旨在加快高度复杂的ML模型的训练和推理,以便组织构建大型语言模型,生成AI和扩散模型以优化运营。
A3 VM结合了NVIDIA H100 Tensor Core GPU和Google先进的网络技术:
A3 是第一个使用 Google 200 Gbps IPU 的 GPU 实例,GPU 到 GPU 的数据传输绕过 CPU 主机,并通过与其他 VM 网络和数据流量不同的接口流动。谷歌表示,与我们的A10虚拟机相比,这使得网络带宽增加了2倍,具有低尾延迟和高带宽稳定性。
谷歌的Jupiter数据中心网络结构可扩展到数万个互连的GPU,并允许全带宽可重新配置的光链路,可以按需调整拓扑结构。谷歌表示,对于大多数工作负载结构,Jupiter实现了与更昂贵的现成非阻塞网络结构无法区分的工作负载带宽,从而降低了TCO。
A3 超级计算机的规模可提供高达26exaFlops 的 AI 性能,从而降低训练大型 ML 模型的时间和成本。
谷歌表示,A3 VM还支持推理工作负载,“与由NVIDIA A30 Tensor Core GPU提供支持的A2 VM相比,推理性能提高了100倍。
A3遵循谷歌最近宣布的G2 VM,这是一种使用NVIDIA L4 Tensor Core GPU的云产品,用于服务生成AI工作负载。

A3 功能包括:
· 8个 H100 GPU 采用 NVIDIA 的 Hopper 架构,可提供3倍的计算吞吐量;
· A3 的6个 GPU 之间的3.8TB/s 对分割带宽,其通过 NVIDIA NVSwitch 和 NVLink 4.0来连接
· 第四代英特尔至强可扩展处理器
· 通过2MHz DDR4800 内存提供 5TB 主机内存
· 由支持硬件的 IPU、专用服务器间 GPU 通信堆栈和 NCCL 优化提供支持的网络带宽提高10倍

谷歌还表示,对于希望在没有维护的情况下开发复杂ML模型的客户,他们可以在Vertex AI上部署A3 VM,这是一个端到端平台,用于在托管基础设施上构建ML模型,专为低延迟服务和高性能训练而构建。

说点什么...

已有0条评论

最新评论...

本文作者
2023-5-26 14:42
  • 0
    粉丝
  • 516
    阅读
  • 0
    回复
资讯幻灯片
热门评论
热门专题
排行榜
Copyright   ©2015-2023   猿代码-超算人才智造局 高性能计算|并行计算|人工智能      ( 京ICP备2021026424号-2 )