1) 生物电镜用户建议 (依据RELION测试结果) • 建议选择NVLink的GPU平台。理由:随着电镜拍照速度的提高,数据量将越来越大,更好 的配置可以更好的适应未来几年数据增长带来的计算压力。 • 可以选择混搭配置单节点8卡和单节点4卡,分别应对不同的数据计算要求, 8卡并行将大 幅度降低计算总时间 。目前两种配置也是RELION计算平台比较常用的。 2) 物化用户建议 (依据自开发软件PWDFT测试结果) 如果大量采购A100平台,建议购买NVLink的GPU平台,4卡就可以相对于 PCI-E平台加速50%。不建议购买平台2(A280NHost),同样是支持 NVLink的平台,平台4(I220NHost)的表现更好。 建议购买8卡GPU,8卡可以最大程度的发挥NVLink的性能,同时也可以减 少GPU节点的数量,节约CPU,内存等部件的成本,减少空间的占用。 3) 物化用户建议 (依据自开发pyTorch与商业VASP应用测试结果) 1、建议新集群选择基于 PIC-E 做卡间互联的GPU平台?还是基于 NVLink 的GPU平台?及其理由:
(综合考虑:NVLink平台的价格约增加10%,且运行最大功耗从250W增加至400W)
目前本人的课题所需的程序对GPU通信的要求不算很大,PCI-E基本能满足。但是类似于算例4这类本身难以进一步优化通
信的程序或算例应该并不少见,此外未来的课题也很有可能因为需求增长导致PCI-E不够用,故推荐NVLink的平台。 2、对单节点选择配置4卡或8卡GPU的建议,及其理由: 建议单节点配置8卡,就个人涉及到的一些研究而言: a) VASP涉及杂化泛函甚至加SOC的体系的计算,以及针对化学模拟的神经网络的拟合和使用,对资源的消耗极大,单节 点8卡可以完全用满。 b) 使用高通信需求的程序时,单节点8卡的效率会比2个4卡节点高。 c) GPU版的程序开发时,优化节点内的通信会比跨节点容易。 d) 配合NVIDIA MPS服务应该可以合理调度空闲的GPU资源,避免进程之间相互影响或是资源浪费。 4) 流体用户建议 (依据HiResX与PyFR测试结果) 1、建议新集群选择基于 PIC-E 做卡间互联的GPU平台?还是基于 NVLink 的GPU平台?及其理由:
(综合考虑:NVLink平台的价格约增加10%,且运行最大功耗从250W增加至400W)
本实验室的程序并行效果较好,测试结果表明NVLink和PCI-E导致的性能差异不明显,或源于PCIe 4.0相比上一代带宽
更高。因此,如果学校用户对GPU需求量很高,资源不够用,则建议采购更多的GPU,即采用PCI-E版本。
如果GPU资源相对充足,则采购NVLink的机器对应用开发有益处。因为应用程序的开发通常赶不上英伟达的技术更新,
采购具有最新技术的设备,将有利于程序的开发升级,促进校内的应用开发进展。
2、对单节点选择配置4卡或8卡GPU的建议,及其理由:
机器内GPU密度越高越好,可以减小跨节点并行带来的延时。目前测试看,就同一个问题来说,从4卡增加到8卡,计
算时间几乎是减半。 故强烈推荐高计算密度的8卡方案,甚至经费允许和未来可能的话采用16卡方案,减少主机其他部
件的采购成本,以增加GPU卡采购总数。 5) 用户应用 用户建议 生物Relion • 建议选择NVLink的GPU平台。 • 可以选择混搭配置单节点8卡和单节点4卡,两种配置也是 RELION计算平台比较常用的。 物化PWDFT • 建议购买8卡NVLink的GPU平台,可最大程度发挥NVLink性 能,并节约CPU、内存、机柜空间等。 物化pyTorch、VASP • 推荐8卡NVLink的平台。部分杂化泛函计算对通信需求高,可 用满8卡,效率会比2个4卡节点高。 流体HiResX、PyFR • 建议尽可能的购买更多的GPU,故选择8卡 & PCIe4平台 • 如GPU资源充足,则采购NVLink平台可促进开发升级 普遍建议选择8卡NVLink连接的A100 GPU节点;部分用户在少数情况下,可接受PCI-E互联的节点 |
说点什么...