猿代码 — 科研/AI模型/高性能计算
0

Relion PWDFT pyTorch VASP HiResX PyFR GPU平台测试

摘要: 1)I220N Host性能最好 • A280N Host性能次之,且跟I220N Host 差距明显。• A235P Host性能较差 • pagebale模式且Transfer Size小于 100KB时, I220N Host的速度是A280N Host速度的3-4倍2)A235PHost与I220NHost具 ...
1)

I220N Host性能最好 • A280N Host性能次之,且跟I220N Host 差距明显。 
• A235P Host性能较差 • pagebale模式且Transfer Size小于 100KB时, I220N Host的速度是A280N Host速度的3-4倍

2)

A235PHost与I220NHost具有明显更好的延时性能(前者经常表现更好); 
• A280NHost的表现总是最差。

3)
在P2P Disabled时,卡间性能最好的是A235PHost(~29.3GB/s),其次是I220NHost(~26.2GB/s),A280NHost性能最差
(18.4GB/s)。
在P2P Enabled时, A280NHost与I220NHost性能基本相同(436/437 GB/s),A235PHost(PCIe4)性能很差(49.3
GB/s)。
绿色表示性能较好
蓝色表示性能一般
红色表示性能较差
A280NHost 在P2P Disabled模式下的双向通信带宽速度异常(18.4 GB/s),程序在该硬件下需要避免使用此通信模
式。
4)

在使用NCCL多卡通信库时,I220NHost与A280NHost的多卡alltoall通讯总线带宽性能基本相同
• 使用PCIe4的A235PHost多卡alltoall性能较差,与两个NVLink平台测试机的差距在10倍以上
NCCL会自动使用P2P Direct通信,选择最快的连接路径,使应用发挥最佳的多卡间传输性能。
因通讯绕过了CPU Host,两个NVLink平台具有基本相同的alltoall性能(其他allgather allreduce broadcast的性能类似)

5)
 A280NHost相比I220NHost具有稍低的L1 Cache延时
(~ 1.4ns vs. 1.7ns),具有相似的L2 Cache延时。
• I220NHost具有明显更小的内存(Memory)延时(~ 60ns
vs. 150ns)。
A280NHost 最高负载仅能达到211GB/s,负
载下的延时为500ns
• I220NHost最高负载可达到350GB/s,且该负
载下的延时为290ns。

6)
 使用Intel CPU的I220NHost相比使用AMD CPU的A280NHost在内存延时与带宽上具有显
著的性能优势,且在发起GPU指令的时候具有更快的非阻塞响应性能,其影响内存<->显存
的数据传输,也影响非P2P Direct模式下的卡间通讯性能。
 在使用NCCL卡间数据通信库时,其自动使用最优的通信路径。在P2P Direct通信模式下,
主机的性能差异不影响卡间的直接通信,所以两个NVLink GPU平台具有相似的AlltoAll等
通信性能,且相比PCIe4平台下的卡间通信性能具有10倍以上的优势。
 PCIe平台具有可见的卡间延时优势,且在关闭P2P Direct时与NVLink平台的卡间通信带宽
差异不明显。因此,在程序编写不当或卡间通信数据(Buffer Size)较小时,PCIe平台可能
与NVLink平台具有相似的性能,甚至前者会更好。

7)


















说点什么...

已有0条评论

最新评论...

本文作者
2024-2-16 21:08
  • 0
    粉丝
  • 384
    阅读
  • 0
    回复
资讯幻灯片
热门评论
热门专题
排行榜
Copyright   ©2015-2023   猿代码-超算人才智造局 高性能计算|并行计算|人工智能      ( 京ICP备2021026424号-2 )