超级计算机:从零起步赢得速度、应用“双优势”

2021-06-30 07:13:16 来源: 科技日报 作者: 过国忠 段芳

科技日报记者 过国忠  通讯员 段芳

高性能超级计算机,是世界发达国家争抢的重要“制高点”,对国家安全、经济和社会发展,具有举足轻重的支持作用。因此加快发展超级计算机,推广超级计算机应用,对于我国科学研究、推动科技创新和促进经济社会高质量发展意义重大。

40多年来,我国超级计算机经历了从无到有、从跟跑到局部领先、从关键核心技术引进到实现自主可控的艰难发展历程。

勇于突破封锁,我国超算技术不再受制于人

“多年来,中、美、日等国在超级计算机领域的竞争,实际就是科技实力与综合国力的竞争。”中国科学院计算技术研究所研究员张云泉说,我国几代超算人前赴后继,创造出了不起的“奇迹”。截至目前,天河二号、“神威·太湖之光”等国产超级计算机,在国际超级计算机大赛上,共拿下10个世界第一。

“神威·太湖之光”超级计算机机房。视觉中国供图

在国家超级计算无锡中心主任杨广文的记忆中,上世纪70年代,首台超级计算机问世后,国际上对超级计算机的需求猛增。发达国家在重点产业领域,利用超级计算机取得了多方面的突破。当时,美国、日本等国在一些关键核心技术上,对中国全面封锁。

那时,我国由于没有高性能的计算机,部分石油矿藏数据和资料不得不用飞机送去国外处理,不仅费用昂贵,而且受制于人。

当时,我国曾向某发达国家提出进口一台性能不算很高的超级计算机,对方却回复:必须要为这台机器建一个六面不透光的“安全区”,能进入“安全区”的只能是巴黎统筹组织的工作人员。

1978年,党的十一届三中全会召开,拉开了改革开放的序幕。也就是在这一年,我国正式启动巨型计算机的研制工作。

“为什么要研制自己的巨型计算机?因为中国要搞四个现代化,不能没有巨型计算机!”杨广文告诉科技日报记者,超级计算机由大量的计算节点组成,每个计算节点由一些CPU(中央处理器)组成,计算节点由高速互联网络连接起来。除此之外,整个系统还包括大规模存储系统、系统软件、应用软件和冷却系统等。因此短时间内,我国要想在超级计算机核心技术上取得重大突破、跑在世界前列,不是一件容易事。

然而,我国的科研人员并未被眼前的困难吓倒。当时,他们脑子里只有一个念头:早日造出中国人自己的巨型计算机,技术上不再受制于人。

从1978年到1983年,这5年里,承担此项任务的研发团队,没日没夜的顽强拼搏,解决了无数个基础理论、技术和制造工艺问题,攻克了数以百计的关键技术难关,创造性地提出了“双向量阵列”结构并完成整体设计,比原计划提前一年成功研制出“银河-Ⅰ”巨型计算机。

1983年12月26日,我国第一台亿次巨型计算机“银河-Ⅰ”正式通过国家技术鉴定,系统达到并超过了预定的性能指标,机器整体稳定可靠,且经费只用了原计划的1/5。

这标志着中国成为世界上少数几个能够独立设计和研制亿次巨型计算机的国家。

面向国家需求,实现真正安全自主可控

“从2002年之后,经过15年的高速发展,中国超算实现了安全、自主、可控。”杨广文说。

近10年来,我国从基于自主可控超级计算机系统的软件与应用、服务于国家特殊需要和高新技术产业发展考虑,重新布局了超级计算机的研制工作。

“十三五”国家重点研发计划设立了“高性能计算”重点专项,在高性能计算机研制、系统软件及应用等方面给予布局支持。其中,研制“神威·太湖之光”就是国家重点组织开展的一项重大科研任务。

2013年4月22日,江苏省人民政府正式提出在无锡市建设10亿亿次超级计算中心,得到科技部的支持;2014年3月5日,科技部同意“高效能计算机及应用服务环境(二期)”重大项目立项;2015年12月31日,“神威·太湖之光”超级计算机研制完成。

用相关专家的话来说,随着“神威·太湖之光”超级计算机和“申威26010”处理器等标志性成果的出现,打破了长期以来国产超级计算机平台无“芯”可用的局面,奠定了安全、自主、可控的国产平台技术基础。

记者了解到,“神威·太湖之光”超级计算机由40个运算机柜和8个网络机柜组成。每台运算机柜包含4个由32块运算插件组成的超节点,每块插件由4个运算节点板组成,一个运算节点板又包含两块“申威26010”高性能处理器。

“一台机柜就有1024块处理器,‘神威·太湖之光’共有40960块处理器。”杨广文说。

值得一提的是,“神威·太湖之光”也是我国第一台全部采用国产处理器构建的超级计算机。截至目前,其以每秒9.3亿亿次的浮点运算速度,连续4次在全球超级计算机比赛中夺冠。其中,2016年11月,“神威·太湖之光”以较大的运算速度优势再次夺得世界超算冠军,基于该超级计算机运行的高性能计算应用项目获得国际高性能计算应用领域最高奖——“戈登贝尔”奖,成为我国高性能计算应用发展的一个里程碑式的成就。

“让基于自主可控超级计算机系统的软件与应用登上国际巅峰,做强国产软件,这是我们超算人的追求与梦想。”国家超级计算无锡中心研发中心主任甘霖说。

E级计算被公认为超级计算机领域的“下一顶皇冠”,为能抢占先机,我国超前布局了下一代超级计算机,在“十三五”国家重点研发专项中,重点支持了3个基于不同技术路线的E级原型系统。目前,我国E级超级计算机系统研发工作正在稳步推进之中。

比拼应用水平,让大机器发挥出大作用

“超级计算机为解决工程和科学中的重大难题而生。”国家超级计算无锡中心副主任付昊桓说,衡量超级计算机的价值,不能只看运算速度,还要看应用水平。

“比拼谁的超级计算机‘跑’得更快,这种竞赛曾一度在中、美、日、韩等国之间进行。不过,现在大家比的是,超级计算机能被用在什么领域,这成为如今竞争的关键点。”杨广文说。

那么,该如何让大机器发挥出大威力?

在杨广文看来,国家超级计算无锡中心主要的职责就是运维,运维的目的就是用好这台超级计算机。

近7年来,国家超级计算无锡中心的科研团队不负众望,将理论与实践相结合,通过开展跨学科、跨单位的广泛交叉合作,使基于“神威·太湖之光”系统的并行应用成果频出。其中,利用“神威·太湖之光”超级计算机每秒10亿亿次的超强计算力,研发出的有关气候模拟、地震模拟、工业仿真、生物医药等领域的一系列国产应用软件,助力我国基础研究和工程创新,展示了国产超级计算机硬件与软件相结合的巨大潜力。

2017年11月17日,在美国丹佛举行的全球超级计算大会上,由中国科研团队完成的“非线性地震模拟”再获“戈登贝尔”奖。利用“神威·太湖之光”的强大计算能力,该团队成功地设计实现了高可扩展性的非线性地震模拟工具。该工具首次实现了对唐山大地震发生过程的高分辨率精确模拟,使得科学家可以更好地理解唐山大地震所造成的影响,并对未来地震预防预测等具有重要的借鉴意义。

此外,杨广文表示,超级计算机还能为人工智能领域的深度学习服务。“现在,许多IT公司的技术负责人找到我们,主要因为我们开发了大量基于深度学习算法的并行软件,研发了一个深度学习平台swCaffe。目前,我们已开展的、基于超级计算机的深度学习应用,包括围棋、语音识别、医学图像识别、遥感图像分类、地震波余震特征识别、大规模冷冻电镜生物大分子模型高精度重构等。”杨广文说。

杨广文告诉记者,目前国家超级计算无锡中心“神威·太湖之光”系统运行稳定,用户数量不断增加,机器利用率已超过50%,已完成200多项百万核大型问题的求解任务,涉及航空航天、先进制造、生物医药、新材料、新能源等重点领域,有效地支持了国家科学研究与产业创新。

这些重要的应用成果在国内外引起了巨大反响,这证明“神威·太湖之光”能够支持具有战略需求的挑战性应用,并向世界展示了中国超级计算机的国际地位和重要影响力。

值得一提的是,近年来,国家超级计算无锡中心高度重视人才引进与培育。目前,该中心拥有国内外特聘专家30余人,专业涉及计算机软硬件开发、气象气候、生物基因、海洋物理、力学、大数据、云计算等。此外,该中心每年还承担清华大学在读博士生、硕士生的培养任务。

杨广文表示,未来我国科研团队将继续围绕提升国家科技创新能力,以“神威·太湖之光”超级计算机为基础, 进一步解决气候、环境、生命、材料和制造等领域的重大科学问题,研究高性能计算的核心技术、提升高性能计算的应用水平、培养高性能计算人才,为我国基础研究及产业发展提供强有力的支撑。

责任编辑: 马嘉悦