猿代码 — 科研/AI模型/高性能计算
0

流体应用 GPU 测试

摘要: 1)软件配置: GCC,Intel Fortran 2013,CUDA-11,OpenMPI-4.0.1(基于CUDA),HWLOC-2.0.4算例说明:(1) 计算域为一个立方体,总共8000万网格点,求解Navier-Stokes方程,边界均为远场边界;(2) 对流项采用5阶HWCNS ...
1)
软件配置: GCC,Intel Fortran 2013,CUDA-11,OpenMPI-4.0.1(基于
CUDA),HWLOC-2.0.4
算例说明:
(1) 计算域为一个立方体,总共8000万网格点,求解Navier-Stokes方程,边
界均为远场边界;
(2) 对流项采用5阶HWCNS格式,粘性项采用6阶中心差分格式,时间推进
采用3步Runge-Kutta格式;
(3) 推进时间步数为2000步,统计平均每步的耗时。
测试结果解析:
• 4卡NVLink平台与4卡PCIe4平台下的速度比为1.07,速度基本相同。
• A280NHost平台下,并行度从4卡扩展至8卡时效率依然很高,为 97% 。
• 计算量估计:20 卡•年


2)
流体应用 PyFR 测试

软件配置: GCC,CUDA-11,OpenMPI-4.0.1(基于CUDA),python-3
算例说明:
(1) Taylor-Green Vortex标准算例测试,总自由度约为6210万;
(2) 空间采用5阶通量重构法,时间推进采用3步Runge-Kutta格式;
(3) 推进时间步数为1000步,统计总耗时。
测试结果解析:
• 使用AMD CPU的A280NHost的计算时间异常高,或源于硬件测试
部分中展示的延时/通讯异常
• 4卡NVLink平台与4卡PCIe4平台下的速度比为1.0,速度基本相同。
• A280NHost平台下,并行度从4卡扩展至8卡时效率依然很高,为
93%。
• 计算量估计:10 卡•年

3)
CFD不是通信密集型应用,所以PCIe和NVLINK差不多。









说点什么...

已有0条评论

最新评论...

本文作者
2024-2-16 21:17
  • 0
    粉丝
  • 365
    阅读
  • 0
    回复
资讯幻灯片
热门评论
热门专题
排行榜
Copyright   ©2015-2023   猿代码-超算人才智造局 高性能计算|并行计算|人工智能      ( 京ICP备2021026424号-2 )