1) 软件配置: GCC,Intel Fortran 2013,CUDA-11,OpenMPI-4.0.1(基于 CUDA),HWLOC-2.0.4 算例说明: (1) 计算域为一个立方体,总共8000万网格点,求解Navier-Stokes方程,边 界均为远场边界; (2) 对流项采用5阶HWCNS格式,粘性项采用6阶中心差分格式,时间推进 采用3步Runge-Kutta格式; (3) 推进时间步数为2000步,统计平均每步的耗时。 测试结果解析: • 4卡NVLink平台与4卡PCIe4平台下的速度比为1.07,速度基本相同。 • A280NHost平台下,并行度从4卡扩展至8卡时效率依然很高,为 97% 。 • 计算量估计:20 卡•年 2) 流体应用 PyFR 测试 软件配置: GCC,CUDA-11,OpenMPI-4.0.1(基于CUDA),python-3 算例说明: (1) Taylor-Green Vortex标准算例测试,总自由度约为6210万; (2) 空间采用5阶通量重构法,时间推进采用3步Runge-Kutta格式; (3) 推进时间步数为1000步,统计总耗时。 测试结果解析: • 使用AMD CPU的A280NHost的计算时间异常高,或源于硬件测试 部分中展示的延时/通讯异常 • 4卡NVLink平台与4卡PCIe4平台下的速度比为1.0,速度基本相同。 • A280NHost平台下,并行度从4卡扩展至8卡时效率依然很高,为 93%。 • 计算量估计:10 卡•年 3) CFD不是通信密集型应用,所以PCIe和NVLINK差不多。 |
说点什么...