1) 重要提示:当前似乎有一个错误,无论是在我的编译中,还是在使用的工具链中,或是在集群上,当在Barbora上的多个GPU节点上执行时,它都会阻止VASP运行到完成。多节点作业的比较将在解决此错误后立即得到更正。对2个节点上所描述的性能持保留态度。然而,CPU和GPU之间在1个节点上的性能差异应该非常重视。 2) 使用IT4创新集群上VASP 5的缩放-金属结构一文中描述的规则运行CPU计算,即KPAR=2*<节点数>,NCORE=18,NSIM=4。 当KPAR=<节点数>和KPAR=2*<节点数>时,GPU上的作业执行非常相似。NSIM=16提供了额外的加速,但是在NSIM>=64时,计算再次开始减慢。 在Barbora的GPU节点上运行计算的限制因素是可用图形内存的数量。96个原子的测试用例最多只能使用KPAR=2*<节点数>。理论上,如果KPAR=4*<节点数>(=<GPU总数>)适合GPU内存,使用它可能会更快。 结论 GPU版本的VASP 6比VASP 5 CUDA端口更强大、更易于使用。通过这些测试,我们希望展示OpenACC端口的实用性,大大加快您的计算速度。此外,Barbora的GPU节点的核算因子(每整个节点)仅为CPU节点核算因子的大约两倍。这意味着,与Barbora的CPU节点相比,在那里运行计算不仅快4倍,而且便宜2倍。 也就是说,在多个节点上运行GPU端口仍然存在上述问题。然而,这个问题应该很快得到解决。 |
说点什么...