猿代码 — 科研/AI模型/高性能计算
0

在NVIDIA GPU上运行VASP 6.2.1的OpenACC端口

摘要: 1)重要提示:当前似乎有一个错误,无论是在我的编译中,还是在使用的工具链中,或是在集群上,当在Barbora上的多个GPU节点上执行时,它都会阻止VASP运行到完成。多节点作业的比较将在解决此错误后立即得到更正。对2 ...
1)
重要提示:当前似乎有一个错误,无论是在我的编译中,还是在使用的工具链中,或是在集群上,当在Barbora上的多个GPU节点上执行时,它都会阻止VASP运行到完成。多节点作业的比较将在解决此错误后立即得到更正。对2个节点上所描述的性能持保留态度。然而,CPU和GPU之间在1个节点上的性能差异应该非常重视。

2)
使用IT4创新集群上VASP 5的缩放-金属结构一文中描述的规则运行CPU计算,即KPAR=2*<节点数>,NCORE=18,NSIM=4。



当KPAR=<节点数>和KPAR=2*<节点数>时,GPU上的作业执行非常相似。NSIM=16提供了额外的加速,但是在NSIM>=64时,计算再次开始减慢。



在Barbora的GPU节点上运行计算的限制因素是可用图形内存的数量。96个原子的测试用例最多只能使用KPAR=2*<节点数>。理论上,如果KPAR=4*<节点数>(=<GPU总数>)适合GPU内存,使用它可能会更快。



结论

GPU版本的VASP 6比VASP 5 CUDA端口更强大、更易于使用。通过这些测试,我们希望展示OpenACC端口的实用性,大大加快您的计算速度。此外,Barbora的GPU节点的核算因子(每整个节点)仅为CPU节点核算因子的大约两倍。这意味着,与Barbora的CPU节点相比,在那里运行计算不仅快4倍,而且便宜2倍。



也就是说,在多个节点上运行GPU端口仍然存在上述问题。然而,这个问题应该很快得到解决。


说点什么...

已有0条评论

最新评论...

本文作者
2024-2-16 22:48
  • 0
    粉丝
  • 266
    阅读
  • 0
    回复
资讯幻灯片
热门评论
热门专题
排行榜
Copyright   ©2015-2023   猿代码-超算人才智造局 高性能计算|并行计算|人工智能      ( 京ICP备2021026424号-2 )