近日在德国汉堡举办的ISC 2023高性能计算大会发布了最新IO500榜单,该校国家超级计算济南中心(以下简称济南超算)构建的验证性计算集群(Cheeloo-1)在10节点研究型榜单登顶夺冠,测试得分突破13万,继济南超算山河计算集群在ISC 2022夺冠后,以超越历史最佳纪录15倍的绝对优势,再次问鼎全球。 济南超算副主任、济南超级计算技术研究院院长潘景山表示,国际TOP500竞争聚集在算力性能,但算力实际发挥作用还依赖于存储,因此,存储输入输出速度极为重要,IO就是“IN PUT和OUT PUT”的简称,在IO500榜单中登顶夺冠,说明我们存储系统的性能达到了国际顶级水平,意义重大。 我国高性能计算中心的建设遍布全国,拥有先进的设备和超级计算机。这些计算机能够进行海量数据的处理和复杂模拟,助力科研、国防和工业等领域的发展。那么,我国的高性能计算发展水平与国外相比如何?有什么样的差距,我们又能从中看到哪些机会? 中国在高性能计算领域与国外相比存在以下差距: 技术水平: 一个是芯片工艺,一个是应用软件,是最核心的2个差距。芯片总体性能相当,但是单核性能与X86比较起来还是差一些,尤其是芯片制造这一块。 在应用软件上,我国虽然已大力发展,但在高性能计算的软件和算法上还有差距。 比如多次登顶TOP500的美国超算能力是一股自底而上的完整技术生态,从最基础的计算单元(CPU和加速器),到基础软件、工业软件或商业软件,再到上层应用开发,是一个完善的生态闭环;而我们的超算,绝大多数设备的计算核心并非国产,基础软件对外依赖,工业和商业软件亦不例外,这造成了中国超算与美国的实质性差距。 其次,即便我们“在别人的基础上盖大楼”,也盖得不是那么好。这些年来超算系统突飞猛进,应用普及的步子却没有随之迈得那么大。目前,超算中心主要业务基本还是高校、科研院所,很少有企业、小型组织在用。而无论从哪方面来看,用好超算对企业业务竞争力的提升都具有长远意义。 现实却是,很多企业想用上超算,却不知该从何处下手。用得太少,说明我们的超算在“好用”“易用”的问题上,解决得并不充分。 另一方面,超算系统的生命周期也有限。如何在它5~7年的“巅峰生涯”里发挥更大作用,服务国计民生更多方面? 显然,超算越易用、好用,各行各业拥抱超算的门槛才真的降低了。门槛低了,用得人才能多起来。 2023年4月18日,科技部正式部署超算互联网,目标是要使得超算要像用水用电一样便捷,服务更多国计民生,消息一出,行业振奋。路虽远,行则必至。 学术研究: 国外在高性能计算的学术研究方面相对领先。一些国外机构和大学拥有更多的研究资源和顶尖学者,他们在算法、模拟和应用方面的研究更加深入和前沿。 比如,要着力构建“系统软件和中间件”接口或平台——这是应用生态中非常关键的内容——系统软件和中间件是连接超算底层和上层应用的关键环节,通常在超算上跑应用的技术人员,如果对计算机底层不太熟悉,会感到束手束脚,牵扯大量精力。 因此要解放这一部分生产力,让做应用的专注于应用软件的开发、应用环境的优化和应用效率的提升,让专业的人做专业的事情。 这其实并不容易做到,一支高水平的支撑队伍需要很强的交叉学科能力,才能把对超算的应用服务做到比超算的建设和维护还要出色。 也就是说,只懂计算机是不够的,还要“混搭”与应用相关的知识背景。 这就是我们为什么说,高性能计算工程师并不是码农,他们需要时间的沉淀和知识的积累。 人才储备: 国外在高性能计算领域拥有更多的顶尖科学家、工程师和专业人才。但是国内既懂算法、懂体系架构还懂应用算法的复合型人才特别少。 由于高性能计算对人的更高了,不像传统的开发,自学就能学会。异构并行不容易,因为程序员的思维模式需要从根本上做转变。原来是基于单线程的思维模式,现在要将算法设计成多线程。怎么样能把任务很好地分配到各个处理器上,怎么去利用好各个处理器上的硬件资源,这都是很难的。 目前这种情况,主要是因为整个培养体系不完善造成的。而异构计算、并行计算这些概念直到近来才得到大家的重视,学校还没有来得及培养这类人才。虽然有些高校会开相关的选修课,但开课老师一直是待在学校,本身并没有太多实战经验,也没有经历过来自工业界的摔打,所以,总的来说,培养效果不是很明显。 目前高性能计算的相关人才培养需要从源头筛选优秀的编程人才,需要对这个行业的非常热爱,具备解决通用实际问题的能力,对计算机体系结构的整体把握能力,具备数据处理能力。然后需要帮助他完善计算机体系结构的理论基础,比如计算机是怎么做计算的,一个计算从把指令放出去,到最后执行完成,写回历程,会经历哪些阶段,每个阶段是怎么处理的;培养他如何去设计一个好的并行算法;交给他常见的软件工程师所必需掌握的各项技能;训练他如何编程,如何写出高质量的程序;培养解决各类实际问题的能力,无论是异构并行算法上出现的问题,还是硬件层面出现的问题。 而随着这几年深度学习的崛起,工业界对于人才的需求越来越旺盛,学校的培养不仅跟不上,而且这个鸿沟目前的状态是越来越大。尤其大模型一出,几乎所有的公司都在抱怨,这个领域的人才不够用。商汤HPC部分负责人称:商汤在这个领域还挺有名气的,我们都很难找到满足要求的人才,其他公司更不用说了。稍微优秀点的人才,四处难觅,都抢着要。 如果说要解决人才这个问题,最好的方法,就是先培养一批非常好的老师,然后想办法让尽可能多的学生能触及并获取到这部分教师资源。但软件方面,不是拿钱就可以堆出来的,特别是人才,这是有培养周期的。 2022年以来,随着国家政策的出台,以及一批聚焦如何解决“卡脖子”问题的企业出现,相信高性能计算的生态和人才现状会得以改善。 在这里,猿代码科技(https://www.ydma.com)响应国家战略政策,助力解决“卡脖子”问题。目前猿代码科技已研发出涵盖CPU、GPU以及超算运维培训课程,弥补了我国在高性能计算学习以及系统学习方面的不足。课程由国内顶尖科研院所专家及知名企业工程师合作研发,涵盖高性能计算之并行计算等多个方面,包括CPU并行计算实战课程、GPU并行计算实战课程以及超算运维等。相信未来,更多高性能计算人才的涌现,会大大改善目前人才不足的情况。 国际合作: 虽然中国在高性能计算领域也积极与国际进行合作,但与一些国外机构相比,合作交流的程度还有待加强。国外的高性能计算中心通常与国际合作伙伴密切合作,分享经验、资源和最佳实践。 常参加SC、ISC的业内人士可能会比较清楚,这种面向世界的超算盛会是一个开放的展示平台,中国的超算厂商亦喜在大会期间搭展徕客。不过,中国超算厂商一个很明显的特点就是,更重视硬件展示,与软件或应用相关的展示和报告甚少。 而美国人的展台则完全不同:几乎每个展台上都有大量作报告的人,报告内容包括学术研究、应用进展、超算系统新用途……十几分钟一个报告,应用跟随与软硬件产品展示结合在一起,非常有人气。 而且,美国不仅超算厂商有展台,美国能源部、国防部、NASA等都有自己的展台,都会有很多技术专家在展台上作报告,气氛很好。 事实上,这并不鲜见。在美国召开的与高性能计算机相关的学术研讨会,作学术报告的人来自能源部、NASA、高校院所等工业界、学术界,整个就是“混搭”;反观我们,参会虽然有产业界人士,但上台作学术报告的,百分之八九十都来自大学、科研院所。 生态: 国内各种体系架构都有,海光的X86,飞腾的ARM、江南计算所的申威,还有各种GPU,百花齐放。但是跟国外成熟的X86+CUDA生态比起来还是差距非常大。 设备和基础设施: 尽管中国在高性能计算设备方面取得了显著进展,但在一些关键技术和设备的研发上还存在一定差距。一些国外厂商和研究机构在高性能计算硬件的创新和发展方面具有领先优势。 我们知道美国也已将E级计算机的研制纳入国家战略规划之中。在美国E级超算项目相关的报告中,他们对未来E级计算机的使用,精确到非常细致的程度。举个例子,比如美国人在计划书中会写到用E级计算机来提高发动机的效率。在报告中,他们能将发动机内燃烧的各种化学反应、流体计算方程等都呈现在上,关于其在T级计算机能算到什么水平,P级、E级计算到什么程度……也就是说,一个关于超级计算机研制的申请报告中,不仅有计算机研制的框架、方案、意义,还有关乎未来应用的、非常细节的展现。 看到这里,你可能已经有答案了:美国超算之所以强大,不仅强大在计算机硬件、基础软件,还强在其应用是一脉相承的。换句话说,美国不仅硬件强、软件强,应用也是真的强,他们的超算设备,都是好钢用在刀刃上。 反观中国超算,真正实现商品化落地,不过20多年。 1997年,曾获国家科技进步一等奖的“曙光1000A”落户辽河油田。那是中国超算第一次独立进入市场、实现商品化。后来我国以政府和机构为主导力量添置超算“家底”。短短几年间,我们国家不仅在深圳、天津、济南、长沙、广州、无锡部署了六大国家级超级计算中心,不少地方政府也投建了省市级的超算中心。 可能这些超算中心建设的意义大于它们的实际价值,长久以来,坊间充斥着超算中心“指标不低,应用未满”的传闻。2013年~2015年稳坐世界最快超算头把交椅的“天河二号”,曾因年耗电亿元之巨、实用性和效率却难令人满意,一度成为众矢之的。 时至今日,就算我们的超算应用团队蝉联了“戈登·贝尔奖”(2016年、2017年连续两年基于在太湖之光上的应用),中国超算的应用问题仍然是令人头疼的难题。就在“2018年全国高性能计算学术年会”(HPC 2018)上,仍有院士吐槽:“超算在应用层面的滞后是我们长期以来的一个痛点。” 尽管存在这些差距,但是也不可否认中国在高性能计算领域已经取得了巨大的进步。路要一步一步走,饭要一口一口吃。 中国政府和科研机构一直在加大对高性能计算的投资和支持,不断提升技术水平和人才储备。2022年,超算作为报告中第四个关键词;2023年4月18日,科技部确立部署超算互联网。相信未来,随着中国在高性能计算领域的不断发展,这些差距有望逐渐缩小,并进一步提高中国在全球高性能计算领域的竞争力。我们也正在努力培养更多的专业人才,为其提供先进的设备和技术支持,我们很高兴看到越来越多的高校积极开展超算竞赛及活动,多次在世界级的超算大赛中摘金夺银;越来越多的高校在开设高性能计算相关专业,越来越多的企业开放了更多高性能计算相关的岗位。 高性能计算是中国科技进步的重要支柱,也是我们国家实现创新驱动发展的关键之一。中国将继续努力,致力于成为高性能计算领域的领军国家,为推动人类社会的进步和发展做出更大的贡献。让我们携手努力,共同创造一个更加智慧、进步的世界。高性能计算,连接未来。 |
说点什么...