1) VASP在GPU平台的计算需求 对VASP计算占比较多的标准DFT算例的测试结果表明: • 2卡V100性能已经高于4节点160 CPU核。 • VASP在GPU平台上的运行具有较好的性价比。 • GPU平台可以促进用户进行较大规模的VASP计算。 VASP资源需求估计 • 超算中心当前VASP计算使用的CPU资源约为2万核心, 考虑2卡 ~ 160 CPU核心,则相当于250张A100卡。 测试条件:184个原子 C36 H84 S20 Br36 Bi8 体系, NSPIN = 1,4个K 点,NGXYZ=140 x140 x140,开启K点并行 ,CPU硬件:Xeon(R) Gold 6248 CPU @ 2.50GHz VASP计算在GPU下的突破性进展(性能/成本),使得几乎所有CPU作业均可以迁移到GPU集群,可保证新建 设集群在250卡规模左右下具备很好的利用率。 2) 应用-算例 NVLink四卡与 PCIe4.0四卡 速度比 NVLink四卡扩展至 八卡的并行效率 生物Relion-2D算例 1.66 87% 生物Relion-3D算例 2.60 68% 物化PWDFT 1.57 70% 物化pyTorch-算例1 1.10 96% 物化pyTorch-算例2 1.02 100% 物化VASP-算例1-标准DFT 1.00 64% 物化VASP-算例2-大体系 1.55 79% 物化VASP-算例3-杂化泛函 1.00 77% 物化VASP-算例4-杂化泛函 1.17 79% 物化VASP-算例5-大体系 1.75 58% 流体HiResX 1.07 97% 流体PyFR 1.00 93% 相比过去,更多应用显著受益于NVLink技术,使NVLink更具性价比。 • 先进的NVLink技术可以更好的促进自有软件的研发进步 • 当前已经有较多应用算例可以高效率的扩展到8卡并行。 • 8卡可提高其他硬件(CPU、主板等)的利用效率,且降低节点间互联的需求,性价比更高。 3) Intel CPU 优势 选择Intel CPU的优势总结: • NUMA 结构更简单,用户可以更容易的获得高性能;AMD CPU 所有CCD 都通过 Infinity Fabric和I/O Die 进行通信,p2p 通信 效率相比Intel CPU 要低一些。 • 硬件测试表明:除L1 Cache外,Intel的延时与内存带宽都具有显著优势,且在发起GPU指令的时候具有更快的非阻塞响应 性能,其影响内存<->显存的数据传输,也影响非P2P Direct模式下的卡间通讯性能。 4) |
说点什么...