猿代码 — 科研/AI模型/高性能计算
0

GPU合作用户建议

摘要: 1)生物电镜用户建议 (依据RELION测试结果)• 建议选择NVLink的GPU平台。理由:随着电镜拍照速度的提高,数据量将越来越大,更好的配置可以更好的适应未来几年数据增长带来的计算压力。• 可以选择混搭配置单节点8卡 ...
1)
生物电镜用户建议 (依据RELION测试结果)
• 建议选择NVLink的GPU平台。理由:随着电镜拍照速度的提高,数据量将越来越大,更好
的配置可以更好的适应未来几年数据增长带来的计算压力。
• 可以选择混搭配置单节点8卡和单节点4卡,分别应对不同的数据计算要求, 8卡并行将大
幅度降低计算总时间 。目前两种配置也是RELION计算平台比较常用的。

2)
物化用户建议 (依据自开发软件PWDFT测试结果)
 如果大量采购A100平台,建议购买NVLink的GPU平台,4卡就可以相对于
PCI-E平台加速50%。不建议购买平台2(A280NHost),同样是支持
NVLink的平台,平台4(I220NHost)的表现更好。
 建议购买8卡GPU,8卡可以最大程度的发挥NVLink的性能,同时也可以减
少GPU节点的数量,节约CPU,内存等部件的成本,减少空间的占用。

3)
物化用户建议 (依据自开发pyTorch与商业VASP应用测试结果)

1、建议新集群选择基于 PIC-E 做卡间互联的GPU平台?还是基于 NVLink 的GPU平台?及其理由: (综合考虑:NVLink平台的价格约增加10%,且运行最大功耗从250W增加至400W) 目前本人的课题所需的程序对GPU通信的要求不算很大,PCI-E基本能满足。但是类似于算例4这类本身难以进一步优化通 信的程序或算例应该并不少见,此外未来的课题也很有可能因为需求增长导致PCI-E不够用,故推荐NVLink的平台。

2、对单节点选择配置4卡或8卡GPU的建议,及其理由:
建议单节点配置8卡,就个人涉及到的一些研究而言:
a) VASP涉及杂化泛函甚至加SOC的体系的计算,以及针对化学模拟的神经网络的拟合和使用,对资源的消耗极大,单节
点8卡可以完全用满。
b) 使用高通信需求的程序时,单节点8卡的效率会比2个4卡节点高。
c) GPU版的程序开发时,优化节点内的通信会比跨节点容易。
d) 配合NVIDIA MPS服务应该可以合理调度空闲的GPU资源,避免进程之间相互影响或是资源浪费。


4)
流体用户建议 (依据HiResX与PyFR测试结果)
1、建议新集群选择基于 PIC-E 做卡间互联的GPU平台?还是基于 NVLink 的GPU平台?及其理由: (综合考虑:NVLink平台的价格约增加10%,且运行最大功耗从250W增加至400W)  本实验室的程序并行效果较好,测试结果表明NVLink和PCI-E导致的性能差异不明显,或源于PCIe 4.0相比上一代带宽 更高。因此,如果学校用户对GPU需求量很高,资源不够用,则建议采购更多的GPU,即采用PCI-E版本。  如果GPU资源相对充足,则采购NVLink的机器对应用开发有益处。因为应用程序的开发通常赶不上英伟达的技术更新, 采购具有最新技术的设备,将有利于程序的开发升级,促进校内的应用开发进展。 2、对单节点选择配置4卡或8卡GPU的建议,及其理由:  机器内GPU密度越高越好,可以减小跨节点并行带来的延时。目前测试看,就同一个问题来说,从4卡增加到8卡,计 算时间几乎是减半。 故强烈推荐高计算密度的8卡方案,甚至经费允许和未来可能的话采用16卡方案,减少主机其他部 件的采购成本,以增加GPU卡采购总数。

5)

用户应用 用户建议
生物Relion
• 建议选择NVLink的GPU平台。
• 可以选择混搭配置单节点8卡和单节点4卡,两种配置也是
RELION计算平台比较常用的。
物化PWDFT
• 建议购买8卡NVLink的GPU平台,可最大程度发挥NVLink性
能,并节约CPU、内存、机柜空间等。
物化pyTorch、VASP
• 推荐8卡NVLink的平台。部分杂化泛函计算对通信需求高,可
用满8卡,效率会比2个4卡节点高。
流体HiResX、PyFR
• 建议尽可能的购买更多的GPU,故选择8卡 & PCIe4平台
• 如GPU资源充足,则采购NVLink平台可促进开发升级
普遍建议选择8卡NVLink连接的A100 GPU节点;部分用户在少数情况下,可接受PCI-E互联的节点




























说点什么...

已有0条评论

最新评论...

本文作者
2024-2-16 21:20
  • 0
    粉丝
  • 482
    阅读
  • 0
    回复
资讯幻灯片
热门评论
热门专题
排行榜
Copyright   ©2015-2023   猿代码-超算人才智造局 高性能计算|并行计算|人工智能      ( 京ICP备2021026424号-2 )