猿代码 — 科研/AI模型/高性能计算
0

CPU、GPU测试对比

摘要: 1)VASP在GPU平台的计算需求对VASP计算占比较多的标准DFT算例的测试结果表明:• 2卡V100性能已经高于4节点160 CPU核。• VASP在GPU平台上的运行具有较好的性价比。• GPU平台可以促进用户进行较大规模的VASP计算。VA ...
1)
VASP在GPU平台的计算需求

对VASP计算占比较多的标准DFT算例的测试结果表明:
• 2卡V100性能已经高于4节点160 CPU核。
• VASP在GPU平台上的运行具有较好的性价比。
• GPU平台可以促进用户进行较大规模的VASP计算。

VASP资源需求估计
• 超算中心当前VASP计算使用的CPU资源约为2万核心,
考虑2卡 ~ 160 CPU核心,则相当于250张A100卡。

测试条件:184个原子 C36 H84 S20 Br36 Bi8 体系, NSPIN = 1,4个K
点,NGXYZ=140 x140 x140,开启K点并行 ,CPU硬件:Xeon(R) Gold
6248 CPU @ 2.50GHz

VASP计算在GPU下的突破性进展(性能/成本),使得几乎所有CPU作业均可以迁移到GPU集群,可保证新建
设集群在250卡规模左右下具备很好的利用率。

2)

应用-算例
NVLink四卡与
PCIe4.0四卡
速度比
NVLink四卡扩展至
八卡的并行效率
生物Relion-2D算例 1.66 87%
生物Relion-3D算例 2.60 68%
物化PWDFT 1.57 70%
物化pyTorch-算例1 1.10 96%
物化pyTorch-算例2 1.02 100%
物化VASP-算例1-标准DFT 1.00 64%
物化VASP-算例2-大体系 1.55 79%
物化VASP-算例3-杂化泛函 1.00 77%
物化VASP-算例4-杂化泛函 1.17 79%
物化VASP-算例5-大体系 1.75 58%
流体HiResX 1.07 97%
流体PyFR 1.00 93%

相比过去,更多应用显著受益于NVLink技术,使NVLink更具性价比。
• 先进的NVLink技术可以更好的促进自有软件的研发进步
• 当前已经有较多应用算例可以高效率的扩展到8卡并行。
• 8卡可提高其他硬件(CPU、主板等)的利用效率,且降低节点间互联的需求,性价比更高。

3)
Intel CPU 优势

选择Intel CPU的优势总结:
• NUMA 结构更简单,用户可以更容易的获得高性能;AMD CPU 所有CCD 都通过 Infinity Fabric和I/O Die 进行通信,p2p 通信
效率相比Intel CPU 要低一些。
• 硬件测试表明:除L1 Cache外,Intel的延时与内存带宽都具有显著优势,且在发起GPU指令的时候具有更快的非阻塞响应
性能,其影响内存<->显存的数据传输,也影响非P2P Direct模式下的卡间通讯性能。

4)







说点什么...

已有0条评论

最新评论...

本文作者
2024-2-16 21:24
  • 0
    粉丝
  • 650
    阅读
  • 0
    回复
资讯幻灯片
热门评论
热门专题
排行榜
Copyright   ©2015-2023   猿代码-超算人才智造局 高性能计算|并行计算|人工智能      ( 京ICP备2021026424号-2 )