1) https://scc.ustc.edu.cn/_upload/article/files/04/1e/14f548b843e0b31e49c21e37d60e/9076839f-e9cd-424d-8e88-99afa51c62ed.pdf 2) 软件配置:CUDA11,FFTW3.3.8,libxc4.2.3,使用Intel icc ifort 与 OpenMPI 编译。 算例说明:使用具有代表性的Si512体系,截断能 10 Hartree,计算直到 收敛,平均每电子步时间的计算方法是最后10 SCF步取平均,单位:秒。 测试结果解析: • 多卡时,使用Intel CPU与NVLink的I220NHost具有最佳性能 • 4卡NVLink平台(I220NHost)与4卡PCIe4平台下的速度比为: 4.87 / 3.09 = 1.57 • NVLink平台(I220NHost)下,并行度从4卡扩展至8卡时,效率为: 70% • 计算量估计:34 卡•年、、 3) 软件配置:pyTorch 1.7.0,CUDA 11.0,cuDNN 8.0.5,NCCL 2.8.3, OpenMPI 4.0.5 算例说明:神经网络拟合Cu-C训练集。训练集大小:63935,参数总个 数:1283331, Batch size = 16。统计每Epoch耗时(秒)。 测试结果解析: • A235NHost的CPU主频较低,其性能相比A280NHost低 5%-15%。 • 4卡NVLink平台(A280NHost)与4卡PCIe4平台下的速度比为: 153 / 139 = 1.10,NVLinkd的效用不高。 • NVLink平台(A280NHost)下,并行度从4卡扩展至8卡时,效率为: 96% • 计算量估计:3.3 卡•年 4) 软件配置:pyTorch 1.7.0,CUDA 11.0,cuDNN 8.0.5,NCCL 2.8.3, OpenMPI 4.0.5 算例说明:神经网络拟合Cu-C训练集。训练集大小:15983,参数总 个数:1283331, Batch size = 8。统计每Epoch耗时(秒)。本算例 目的是考察单卡多进程共享模式(MPS)的性能,受版本故障限制, pyTorch算例1下无法完成此测试。 测试结果解析: • 开启单卡多进程共享模式后,计算性能在1、2、4、8卡下分别加速 约1.50、1.72、1.78、1.76倍。在8卡平台,最好需要32个以上CPU Core来支持此类计算,所有平台均可以满足。 • NVLink硬件在此类算例下的效能较低。 5) 软件配置:VASP 6.1.0 (OpenACC),NVHPC 20.9 (CUDA 11.0 & OpenMPI 3.1.5),NCCL 2.8.3 算例说明:CHSBrBi的SCF计算,统计第一个离子步内前25个电子步总 时间(秒)。ENCUT = 800 NIONS(总原子数)= 184 , NELECT(总电 子数) = 720, NKPTS(总K点数) = 4, NBANDS = 453, NEDOS = 301, NSIM=16, KPAR = 4, ALGO = Normal (IALGO = 38), NELM = 100 测试结果解析: • 同样采用AMD CPU,A235NHost比A280NHost速度慢5%-8%,应源 于前者主频低 • 多K点并行下,卡间通讯较少,此时PCIe与NVLink对速度影响不大 • 4卡NVLink平台与4卡PCIe4平台下的速度基本相同 • NVLink平台下,并行度从4卡扩展至8卡时,效率为:64%。此较差 结果源于总K点只有4个,所以只能高效率的扩展到4卡计算 • 计算量估计:4.0 卡•年 6) 软件配置:VASP 6.1.0 (OpenACC),NVHPC 20.9 (CUDA 11.0 & OpenMPI 3.1.5),NCCL 2.8.3 算例说明:Cu-C的第一性原理MD ,单Gamma点(无K点并行),统计10 个(前5步之后)电子步的平均时间(秒)。ENCUT = 400 NIONS(总原 子数) = 792, NELECT(总电子数) = 7200, NKPTS= 1, NBANDS = 4320, NEDOS = 301 KPAR = 1, ALGO = Normal (IALGO = 38), NELM = 60 测试结果解析: • 采用同样的内存与AMD-CPU,主频更低的A235NHost比A280NHost速 度慢9%-18% • 单K点计算下,卡间通讯较多,此时PCIe与NVLink对速度影响很大 • 4卡NVLink平台与4卡PCIe4平台下的速度比为:34 / 22 = 1.55 • A280NHost平台下,并行度从4卡扩展至8卡时,效率为:79% ,效率较 高。 • 计算量估计:3.0 卡•年 7) 软件配置:VASP 6.1.0 (OpenACC),NVHPC 20.9 (CUDA 11.0 & OpenMPI 3.1.5),NCCL 2.8.3 算例说明:CH4 体系,HybirdDFT计算,参数:NIONS=32 NBANDS=224 NELECT = 278 ENCUT=380 LHFCALC=.TRUE. IALGO=48 NELM=3 NKPT=5 NGX/Y/Z=48/48/98。 测试结果解析: • 属于多K点并行计算,卡间通讯较少,PCIe与NVLink对速度影响 很小 • 4卡NVLink平台与4卡PCIe4平台下的速度基本相同 • A280NHost平台下,并行度从4卡扩展至8卡时,效率为:77% ,效 率较高。 • 计算量估计:2.0 卡•年 8) 软件配置:VASP 6.1.0 (OpenACC),NVHPC 20.9 (CUDA 11.0 & OpenMPI 3.1.5),NCCL 2.8.3 算例说明:CoCN 体系,HybirdDFT计算,NIONS=112 NBANDS=384 NELECT=456 ENCUT=400 LHFCALC=.TRUE. IALGO=38 NELM=3 NKPT=2 NGX/Y/Z=108/42/128 测试结果解析: • K点个数较少(2个),卡间通讯一般,PCIe与NVLink对速度具有 一定的影响 • 4卡NVLink平台与4卡PCIe4平台下的速度比为:83 / 71 = 1.17 • A280NHost平台下,并行度从4卡扩展至8卡时,效率为:79% ,效 率较高。 • 计算量估计:2.0 卡•年 9) 软件配置:VASP 6.1.0 (OpenACC),NVHPC 20.9 (CUDA 11.0 & OpenMPI 3.1.5),NCCL 2.8.3 算例说明: ZrNCl 体系,标准DFT计算,参数:NIONS=630 NBANDS=3034 NELECT=5058 ENCUT=400 LHFCALC=.FALSE. IALGO=38 NELM=5 NKPT=1 NGX/Y/Z=108/108/140 测试结果解析: • 单个K点,卡间通讯要求高,PCIe与NVLink对速度具有较大影 响 • 4卡NVLink平台与4卡PCIe4平台下的速度比为:63 / 36 = 1.75 • A280NHost平台下,并行度从4卡扩展至8卡时,效率为:58% , 效率较低。 • 计算量估计:1.0 卡•年 10) 对于通信密集型算例,NVLINK比PCIE快得多。 |
说点什么...