猿代码 — 科研/AI模型/高性能计算

猿代码-超算人才智造局高性能计算|并行计算|人工智能

登录注册

快捷登录

猿代码-超算人才智造局高性能计算|并行计算|人工智能 › 首页 ›科技资讯 › 查看内容

0

物化应用 PWDFT 测试

摘要: 1）https://scc.ustc.edu.cn/_upload/article/files/04/1e/14f548b843e0b31e49c21e37d60e/9076839f-e9cd-424d-8e88-99afa51c62ed.pdf2）软件配置：CUDA11，FFTW3.3.8，libxc4.2.3，使用Intel icc ifort 与OpenMPI 编 ...

1）

https://scc.ustc.edu.cn/_upload/article/files/04/1e/14f548b843e0b31e49c21e37d60e/9076839f-e9cd-424d-8e88-99afa51c62ed.pdf

2）

软件配置：CUDA11，FFTW3.3.8，libxc4.2.3，使用Intel icc ifort 与

OpenMPI 编译。

算例说明：使用具有代表性的Si512体系，截断能 10 Hartree，计算直到

收敛，平均每电子步时间的计算方法是最后10 SCF步取平均，单位：秒。

测试结果解析：

• 多卡时，使用Intel CPU与NVLink的I220NHost具有最佳性能

• 4卡NVLink平台（I220NHost）与4卡PCIe4平台下的速度比为：

4.87 / 3.09 = 1.57

• NVLink平台（I220NHost）下，并行度从4卡扩展至8卡时，效率为：

70%

• 计算量估计：34 卡•年、、

3）

软件配置：pyTorch 1.7.0，CUDA 11.0，cuDNN 8.0.5，NCCL 2.8.3，

OpenMPI 4.0.5

算例说明：神经网络拟合Cu-C训练集。训练集大小：63935，参数总个

数：1283331， Batch size = 16。统计每Epoch耗时（秒）。

测试结果解析：

• A235NHost的CPU主频较低，其性能相比A280NHost低 5%-15%。

• 4卡NVLink平台（A280NHost）与4卡PCIe4平台下的速度比为：

153 / 139 = 1.10，NVLinkd的效用不高。

• NVLink平台（A280NHost）下，并行度从4卡扩展至8卡时，效率为：

96%

• 计算量估计：3.3 卡•年

4）

软件配置：pyTorch 1.7.0，CUDA 11.0，cuDNN 8.0.5，NCCL 2.8.3，

OpenMPI 4.0.5

算例说明：神经网络拟合Cu-C训练集。训练集大小：15983，参数总

个数：1283331， Batch size = 8。统计每Epoch耗时（秒）。本算例

目的是考察单卡多进程共享模式(MPS)的性能，受版本故障限制，

pyTorch算例1下无法完成此测试。

测试结果解析：

• 开启单卡多进程共享模式后，计算性能在1、2、4、8卡下分别加速

约1.50、1.72、1.78、1.76倍。在8卡平台，最好需要32个以上CPU

Core来支持此类计算，所有平台均可以满足。

• NVLink硬件在此类算例下的效能较低。

5）

软件配置：VASP 6.1.0 (OpenACC)，NVHPC 20.9 (CUDA 11.0 & OpenMPI

3.1.5)，NCCL 2.8.3

算例说明：CHSBrBi的SCF计算，统计第一个离子步内前25个电子步总

时间（秒）。ENCUT = 800 NIONS（总原子数）= 184 , NELECT（总电

子数） = 720， NKPTS（总K点数） = 4, NBANDS = 453， NEDOS =

301, NSIM=16, KPAR = 4, ALGO = Normal (IALGO = 38), NELM = 100

测试结果解析：

• 同样采用AMD CPU，A235NHost比A280NHost速度慢5%-8%，应源

于前者主频低

• 多K点并行下，卡间通讯较少，此时PCIe与NVLink对速度影响不大

• 4卡NVLink平台与4卡PCIe4平台下的速度基本相同

• NVLink平台下，并行度从4卡扩展至8卡时，效率为：64%。此较差

结果源于总K点只有4个，所以只能高效率的扩展到4卡计算

• 计算量估计：4.0 卡•年

6）

软件配置：VASP 6.1.0 (OpenACC)，NVHPC 20.9 (CUDA 11.0 & OpenMPI

3.1.5)，NCCL 2.8.3

算例说明：Cu-C的第一性原理MD ，单Gamma点（无K点并行），统计10

个（前5步之后）电子步的平均时间（秒）。ENCUT = 400 NIONS（总原

子数） = 792, NELECT（总电子数） = 7200， NKPTS= 1, NBANDS =

4320， NEDOS = 301 KPAR = 1, ALGO = Normal (IALGO = 38), NELM =

60

测试结果解析：

• 采用同样的内存与AMD-CPU，主频更低的A235NHost比A280NHost速

度慢9%-18%

• 单K点计算下，卡间通讯较多，此时PCIe与NVLink对速度影响很大

• 4卡NVLink平台与4卡PCIe4平台下的速度比为：34 / 22 = 1.55

• A280NHost平台下，并行度从4卡扩展至8卡时，效率为：79% ,效率较

高。

• 计算量估计：3.0 卡•年

7）

软件配置：VASP 6.1.0 (OpenACC)，NVHPC 20.9 (CUDA 11.0 &

OpenMPI 3.1.5)，NCCL 2.8.3

算例说明：CH4 体系，HybirdDFT计算，参数：NIONS=32

NBANDS=224 NELECT = 278 ENCUT=380 LHFCALC=.TRUE.

IALGO=48 NELM=3 NKPT=5 NGX/Y/Z=48/48/98。

测试结果解析：

• 属于多K点并行计算，卡间通讯较少，PCIe与NVLink对速度影响

很小

• 4卡NVLink平台与4卡PCIe4平台下的速度基本相同

• A280NHost平台下，并行度从4卡扩展至8卡时，效率为：77% ,效

率较高。

• 计算量估计：2.0 卡•年

8）

软件配置：VASP 6.1.0 (OpenACC)，NVHPC 20.9 (CUDA 11.0 &

OpenMPI 3.1.5)，NCCL 2.8.3

算例说明：CoCN 体系，HybirdDFT计算，NIONS=112 NBANDS=384

NELECT=456 ENCUT=400 LHFCALC=.TRUE. IALGO=38 NELM=3

NKPT=2 NGX/Y/Z=108/42/128

测试结果解析：

• K点个数较少（2个），卡间通讯一般，PCIe与NVLink对速度具有

一定的影响

• 4卡NVLink平台与4卡PCIe4平台下的速度比为：83 / 71 = 1.17

• A280NHost平台下，并行度从4卡扩展至8卡时，效率为：79% ,效

率较高。

• 计算量估计：2.0 卡•年

9）

软件配置：VASP 6.1.0 (OpenACC)，NVHPC 20.9 (CUDA 11.0 &

OpenMPI 3.1.5)，NCCL 2.8.3

算例说明： ZrNCl 体系，标准DFT计算，参数：NIONS=630

NBANDS=3034 NELECT=5058 ENCUT=400 LHFCALC=.FALSE.

IALGO=38 NELM=5 NKPT=1 NGX/Y/Z=108/108/140

测试结果解析：

• 单个K点，卡间通讯要求高，PCIe与NVLink对速度具有较大影

响

• 4卡NVLink平台与4卡PCIe4平台下的速度比为：63 / 36 = 1.75

• A280NHost平台下，并行度从4卡扩展至8卡时，效率为：58% ,

效率较低。

• 计算量估计：1.0 卡•年

10）

对于通信密集型算例，NVLINK比PCIE快得多。

收藏分享邀请

上一篇：生物电镜应用 RELION 测试说明下一篇：流体应用 GPU 测试

说点什么...

已有0条评论

最新评论...

本文作者

2024-2-16 21:15

0
粉丝
733
阅读
0
回复

作者其他文章

最新世界超算500强发布，Frontier排第一
2023/05/23
AMD EPYC（霄龙）CPU性能要吊打Intel至强8300系列么？
2023/05/23
NVIDIA、INTEL、AMD市值比较，建议INTEL换CEO，需要重视芯片工艺、芯片设计和应用算法 ...
2023/05/23
ISC23国际超算大会介绍及精彩瞬间
2023/05/24

相关分类

资讯幻灯片

热门评论

热门专题

排行榜

日
周
月

微信公众号

Copyright ©2015-2023 猿代码-超算人才智造局高性能计算|并行计算|人工智能 ( 京ICP备2021026424号-2 )