猿代码 — 科研/AI模型/高性能计算
0

物化应用 PWDFT 测试

摘要: 1)https://scc.ustc.edu.cn/_upload/article/files/04/1e/14f548b843e0b31e49c21e37d60e/9076839f-e9cd-424d-8e88-99afa51c62ed.pdf2)软件配置:CUDA11,FFTW3.3.8,libxc4.2.3,使用Intel icc ifort 与OpenMPI 编 ...
1)
https://scc.ustc.edu.cn/_upload/article/files/04/1e/14f548b843e0b31e49c21e37d60e/9076839f-e9cd-424d-8e88-99afa51c62ed.pdf

2)
软件配置:CUDA11,FFTW3.3.8,libxc4.2.3,使用Intel icc ifort 与
OpenMPI 编译。
算例说明:使用具有代表性的Si512体系,截断能 10 Hartree,计算直到
收敛,平均每电子步时间的计算方法是最后10 SCF步取平均,单位:秒。
测试结果解析:
• 多卡时,使用Intel CPU与NVLink的I220NHost具有最佳性能
• 4卡NVLink平台(I220NHost)与4卡PCIe4平台下的速度比为:
4.87 / 3.09 = 1.57
• NVLink平台(I220NHost)下,并行度从4卡扩展至8卡时,效率为:
70%
• 计算量估计:34 卡•年、、




3)
软件配置:pyTorch 1.7.0,CUDA 11.0,cuDNN 8.0.5,NCCL 2.8.3,
OpenMPI 4.0.5
算例说明:神经网络拟合Cu-C训练集。训练集大小:63935,参数总个
数:1283331, Batch size = 16。统计每Epoch耗时(秒)。
测试结果解析:
• A235NHost的CPU主频较低,其性能相比A280NHost低 5%-15%。
• 4卡NVLink平台(A280NHost)与4卡PCIe4平台下的速度比为:
153 / 139 = 1.10,NVLinkd的效用不高。
• NVLink平台(A280NHost)下,并行度从4卡扩展至8卡时,效率为:
96%
• 计算量估计:3.3 卡•年

4)

软件配置:pyTorch 1.7.0,CUDA 11.0,cuDNN 8.0.5,NCCL 2.8.3,
OpenMPI 4.0.5
算例说明:神经网络拟合Cu-C训练集。训练集大小:15983,参数总
个数:1283331, Batch size = 8。统计每Epoch耗时(秒)。本算例
目的是考察单卡多进程共享模式(MPS)的性能,受版本故障限制,
pyTorch算例1下无法完成此测试。
测试结果解析:
• 开启单卡多进程共享模式后,计算性能在1、2、4、8卡下分别加速
约1.50、1.72、1.78、1.76倍。在8卡平台,最好需要32个以上CPU
Core来支持此类计算,所有平台均可以满足。
• NVLink硬件在此类算例下的效能较低。


5)

软件配置:VASP 6.1.0 (OpenACC),NVHPC 20.9 (CUDA 11.0 & OpenMPI
3.1.5),NCCL 2.8.3
算例说明:CHSBrBi的SCF计算,统计第一个离子步内前25个电子步总
时间(秒)。ENCUT = 800 NIONS(总原子数)= 184 , NELECT(总电
子数) = 720, NKPTS(总K点数) = 4, NBANDS = 453, NEDOS =
301, NSIM=16, KPAR = 4, ALGO = Normal (IALGO = 38), NELM = 100
测试结果解析:
• 同样采用AMD CPU,A235NHost比A280NHost速度慢5%-8%,应源
于前者主频低
• 多K点并行下,卡间通讯较少,此时PCIe与NVLink对速度影响不大
• 4卡NVLink平台与4卡PCIe4平台下的速度基本相同
• NVLink平台下,并行度从4卡扩展至8卡时,效率为:64%。此较差
结果源于总K点只有4个,所以只能高效率的扩展到4卡计算
• 计算量估计:4.0 卡•年

6)
软件配置:VASP 6.1.0 (OpenACC),NVHPC 20.9 (CUDA 11.0 & OpenMPI
3.1.5),NCCL 2.8.3
算例说明:Cu-C的第一性原理MD ,单Gamma点(无K点并行),统计10
个(前5步之后)电子步的平均时间(秒)。ENCUT = 400 NIONS(总原
子数) = 792, NELECT(总电子数) = 7200, NKPTS= 1, NBANDS =
4320, NEDOS = 301 KPAR = 1, ALGO = Normal (IALGO = 38), NELM =
60
测试结果解析:
• 采用同样的内存与AMD-CPU,主频更低的A235NHost比A280NHost速
度慢9%-18%
• 单K点计算下,卡间通讯较多,此时PCIe与NVLink对速度影响很大
• 4卡NVLink平台与4卡PCIe4平台下的速度比为:34 / 22 = 1.55
• A280NHost平台下,并行度从4卡扩展至8卡时,效率为:79% ,效率较
高。
• 计算量估计:3.0 卡•年

7)
软件配置:VASP 6.1.0 (OpenACC),NVHPC 20.9 (CUDA 11.0 &
OpenMPI 3.1.5),NCCL 2.8.3
算例说明:CH4 体系,HybirdDFT计算,参数:NIONS=32
NBANDS=224 NELECT = 278 ENCUT=380 LHFCALC=.TRUE.
IALGO=48 NELM=3 NKPT=5 NGX/Y/Z=48/48/98。
测试结果解析:
• 属于多K点并行计算,卡间通讯较少,PCIe与NVLink对速度影响
很小
• 4卡NVLink平台与4卡PCIe4平台下的速度基本相同
• A280NHost平台下,并行度从4卡扩展至8卡时,效率为:77% ,效
率较高。
• 计算量估计:2.0 卡•年

8)
软件配置:VASP 6.1.0 (OpenACC),NVHPC 20.9 (CUDA 11.0 &
OpenMPI 3.1.5),NCCL 2.8.3
算例说明:CoCN 体系,HybirdDFT计算,NIONS=112 NBANDS=384
NELECT=456 ENCUT=400 LHFCALC=.TRUE. IALGO=38 NELM=3
NKPT=2 NGX/Y/Z=108/42/128
测试结果解析:
• K点个数较少(2个),卡间通讯一般,PCIe与NVLink对速度具有
一定的影响
• 4卡NVLink平台与4卡PCIe4平台下的速度比为:83 / 71 = 1.17
• A280NHost平台下,并行度从4卡扩展至8卡时,效率为:79% ,效
率较高。
• 计算量估计:2.0 卡•年


9)
软件配置:VASP 6.1.0 (OpenACC),NVHPC 20.9 (CUDA 11.0 &
OpenMPI 3.1.5),NCCL 2.8.3
算例说明: ZrNCl 体系,标准DFT计算,参数:NIONS=630
NBANDS=3034 NELECT=5058 ENCUT=400 LHFCALC=.FALSE.
IALGO=38 NELM=5 NKPT=1 NGX/Y/Z=108/108/140
测试结果解析:
• 单个K点,卡间通讯要求高,PCIe与NVLink对速度具有较大影
• 4卡NVLink平台与4卡PCIe4平台下的速度比为:63 / 36 = 1.75
• A280NHost平台下,并行度从4卡扩展至8卡时,效率为:58% ,
效率较低。
• 计算量估计:1.0 卡•年


10)
对于通信密集型算例,NVLINK比PCIE快得多。










说点什么...

已有0条评论

最新评论...

本文作者
2024-2-16 21:15
  • 0
    粉丝
  • 403
    阅读
  • 0
    回复
资讯幻灯片
热门评论
热门专题
排行榜
Copyright   ©2015-2023   猿代码-超算人才智造局 高性能计算|并行计算|人工智能      ( 京ICP备2021026424号-2 )