1) I220N Host性能最好
• A280N Host性能次之,且跟I220N Host
差距明显。 • A235P Host性能较差
• pagebale模式且Transfer Size小于
100KB时, I220N Host的速度是A280N
Host速度的3-4倍 2) A235PHost与I220NHost具有明显更好的延时性能(前者经常表现更好); • A280NHost的表现总是最差。 3) 在P2P Disabled时,卡间性能最好的是A235PHost(~29.3GB/s),其次是I220NHost(~26.2GB/s),A280NHost性能最差 (18.4GB/s)。 在P2P Enabled时, A280NHost与I220NHost性能基本相同(436/437 GB/s),A235PHost(PCIe4)性能很差(49.3 GB/s)。 绿色表示性能较好 蓝色表示性能一般 红色表示性能较差 A280NHost 在P2P Disabled模式下的双向通信带宽速度异常(18.4 GB/s),程序在该硬件下需要避免使用此通信模 式。 4) 在使用NCCL多卡通信库时,I220NHost与A280NHost的多卡alltoall通讯总线带宽性能基本相同 • 使用PCIe4的A235PHost多卡alltoall性能较差,与两个NVLink平台测试机的差距在10倍以上 NCCL会自动使用P2P Direct通信,选择最快的连接路径,使应用发挥最佳的多卡间传输性能。 因通讯绕过了CPU Host,两个NVLink平台具有基本相同的alltoall性能(其他allgather allreduce broadcast的性能类似) 5) A280NHost相比I220NHost具有稍低的L1 Cache延时 (~ 1.4ns vs. 1.7ns),具有相似的L2 Cache延时。 • I220NHost具有明显更小的内存(Memory)延时(~ 60ns vs. 150ns)。 A280NHost 最高负载仅能达到211GB/s,负 载下的延时为500ns • I220NHost最高负载可达到350GB/s,且该负 载下的延时为290ns。 6) 使用Intel CPU的I220NHost相比使用AMD CPU的A280NHost在内存延时与带宽上具有显 著的性能优势,且在发起GPU指令的时候具有更快的非阻塞响应性能,其影响内存<->显存 的数据传输,也影响非P2P Direct模式下的卡间通讯性能。 在使用NCCL卡间数据通信库时,其自动使用最优的通信路径。在P2P Direct通信模式下, 主机的性能差异不影响卡间的直接通信,所以两个NVLink GPU平台具有相似的AlltoAll等 通信性能,且相比PCIe4平台下的卡间通信性能具有10倍以上的优势。 PCIe平台具有可见的卡间延时优势,且在关闭P2P Direct时与NVLink平台的卡间通信带宽 差异不明显。因此,在程序编写不当或卡间通信数据(Buffer Size)较小时,PCIe平台可能 与NVLink平台具有相似的性能,甚至前者会更好。 7) |
说点什么...