猿代码-超算人才智造局高性能计算|并行计算|人工智能 › 首页 ›科技资讯 › 查看内容

Relion PWDFT pyTorch VASP HiResX PyFR GPU平台测试

摘要: 1)I220N Host性能最好 • A280N Host性能次之，且跟I220N Host 差距明显。• A235P Host性能较差 • pagebale模式且Transfer Size小于 100KB时， I220N Host的速度是A280N Host速度的3-4倍2）A235PHost与I220NHost具 ...

I220N Host性能最好 • A280N Host性能次之，且跟I220N Host 差距明显。

• A235P Host性能较差 • pagebale模式且Transfer Size小于 100KB时， I220N Host的速度是A280N Host速度的3-4倍

2）

A235PHost与I220NHost具有明显更好的延时性能（前者经常表现更好)；

• A280NHost的表现总是最差。

3）

在P2P Disabled时，卡间性能最好的是A235PHost(~29.3GB/s)，其次是I220NHost(~26.2GB/s)，A280NHost性能最差

(18.4GB/s)。

在P2P Enabled时， A280NHost与I220NHost性能基本相同(436/437 GB/s)，A235PHost(PCIe4)性能很差(49.3

GB/s)。

绿色表示性能较好

蓝色表示性能一般

红色表示性能较差

A280NHost 在P2P Disabled模式下的双向通信带宽速度异常(18.4 GB/s)，程序在该硬件下需要避免使用此通信模

式。

4）

在使用NCCL多卡通信库时，I220NHost与A280NHost的多卡alltoall通讯总线带宽性能基本相同

• 使用PCIe4的A235PHost多卡alltoall性能较差，与两个NVLink平台测试机的差距在10倍以上

NCCL会自动使用P2P Direct通信，选择最快的连接路径，使应用发挥最佳的多卡间传输性能。

因通讯绕过了CPU Host，两个NVLink平台具有基本相同的alltoall性能（其他allgather allreduce broadcast的性能类似）

5）

A280NHost相比I220NHost具有稍低的L1 Cache延时

(~ 1.4ns vs. 1.7ns)，具有相似的L2 Cache延时。

• I220NHost具有明显更小的内存(Memory)延时(~ 60ns

vs. 150ns)。

A280NHost 最高负载仅能达到211GB/s，负

载下的延时为500ns

• I220NHost最高负载可达到350GB/s，且该负

载下的延时为290ns。

6）

使用Intel CPU的I220NHost相比使用AMD CPU的A280NHost在内存延时与带宽上具有显

著的性能优势，且在发起GPU指令的时候具有更快的非阻塞响应性能，其影响内存<->显存

的数据传输，也影响非P2P Direct模式下的卡间通讯性能。

 在使用NCCL卡间数据通信库时，其自动使用最优的通信路径。在P2P Direct通信模式下，

主机的性能差异不影响卡间的直接通信，所以两个NVLink GPU平台具有相似的AlltoAll等

通信性能，且相比PCIe4平台下的卡间通信性能具有10倍以上的优势。

 PCIe平台具有可见的卡间延时优势，且在关闭P2P Direct时与NVLink平台的卡间通信带宽

差异不明显。因此，在程序编写不当或卡间通信数据（Buffer Size）较小时，PCIe平台可能

与NVLink平台具有相似的性能，甚至前者会更好。

7）

收藏分享邀请

上一篇：GPU版VASP下一篇：生物电镜应用 RELION 测试说明

说点什么...

已有0条评论

Relion PWDFT pyTorch VASP HiResX PyFR GPU平台测试

说点什么...

最新评论...

最新世界超算500强发布，Frontier排第一

AMD EPYC（霄龙）CPU性能要吊打Intel至强8300系列么？

NVIDIA、INTEL、AMD市值比较，建议INTEL换CEO，需要重视芯片工艺、芯片设计和应用算法 ...

ISC23国际超算大会介绍及精彩瞬间