自主创新铸就超算“中国速度”

社会新闻 阅读(689)
?

[爱国情怀,最美丽的新时代革命士兵]

“天河一号”和“天河二号”副总设计师肖立全:自主创新创造超级计算“中国速度”

光明日报记者刘晓兵光明日报记者刘玉兰

在仲夏季,在国防科技大学的“天河”大楼里,机房的几十米底盘整齐排列,指示灯交错交错,低调“吱吱”高速发声。这是中国六次全球超级计算机500强榜单,让“中国速度”震惊了全球的“天河二号”。此时,作为“天河二号”的副总设计师,肖立泉带领团队解决了新一代高性能计算机,并推出了新的“中国速度”。

“走其他人没有采取的道路”

1997年,毕业于博士后的肖立泉,成为国防科技大学计算机科学与技术学院计算机研究所研究员。从那时起,他就与超级计算机一起成长,并参与了“银河”和“天河”高性能计算机多代机型的开发过程。从一名普通的科学研究员到今天的国防科技大学的超级计算机团队。核心骨干。

“走上其他人没有采取的道路太难了!但我喜欢挑战!”这是小李泉经常挂在嘴边的一句话。 20世纪末,大规模计算机系统中常用的电互连技术传输速率低,易受干扰,已成为中国发展数万亿次级超级计算机的绊脚石。如何消除这个绊脚石?用光互连代替电互连似乎是唯一的最佳解决方案。该研究所将这项任务交给了肖立泉。 2003年,被分配到该任务的肖立泉立即将科研目标定位于技术问题。但是,根据您自己的想法制作的系统根本无法运行。解决方案一次又一次地升起,但它一次又一次地被推翻。有一天,正在做实验的小李泉突然提出一个想法:“数据传输有问题吗?”凌光发现他找到了解决问题的“关键”,然后扭转了思路并推迟了,终于找到了症结所在。

目前,中国的光互连技术已在大型计算机系统中得到有效验证,为该技术在超级计算机系统中的后续应用奠定了坚实的基础。从那以后,肖立泉一直瞄准这一技术领域,赢得了一个又一个“路障”,解决了光互联和电互连的一系列技术问题,并成功开发出第一个采用光互连技术的并行计算机互联通信。在中国。系统。

2010年11月,“天河一号”在世界500强超级大国中名列前茅。中国的超级计算机首次赢得了世界超级会计冠军,五星红旗飘扬在世界之巅; 2013年6月,“天河二号”轻松赢得世界500强超级计算机,中国超级计算机发展达到世界领先水平. 2015年11月,“天河二号”六次荣登世界500强,“中国速度“继续引领世界。

“只有掌握独立核心的核心技术,我们才能掌握国际发言权”

作为天河一号和天河二号的副总设计师,在这些令人眼花缭乱的成就背后,肖立泉瞄准世界高性能计算机技术前沿,不懈探索和创新卓有成效的成果。高速互连通信是大规模并行计算机系统实际效率的关键。美国严格禁止向中国转移高速互联技术。当时,天河一号在中国首次创新地采用了CPU + GPU的异构集成架构。成千上万的CPU和GPU需要通过互连的通信系统交换信息。很难想象组织并全权负责互联通信系统的独立设计和开发的小李泉经常被揣测在实验中。从原则验证到工程实践的第一线,不会遗漏链接。在他的领导下,该团队开展了关键技术和核心技术,以解决关键问题,并成功将天河第一名列入世界第一。

在短暂的欢乐之后,小李泉再次开始了他的密集工作。在原有工作的基础上,他带领团队进行了为期10个月的“封闭式研究”,“天河II”高速互联通信系统性能得到了提升,是当时国际商用互联系统的两倍。它可以连接数以万计的微处理器来解决相同的计算问题,解决了高效互连中“微处理器越多,效率越低”的世界性问题。

超级计算机系统就像一个大城市。互联通信系统是城市的高速公路网,路由器是立交桥,网络接口是主干道的入口和出口。肖立全带领项目团队在校外开展了为期一年的封闭式设计工作,并独立开发了两个芯片,路由器和网络接口,这是互联通信系统的核心。依靠自主创新,我们掌握了自己的核心关键技术。这是天河二号在世界高估,快速发展,激烈竞争的领域长期保持领先地位的主要原因。 “我们不仅仅排名世界第一。世界500强名单实际上是一个交流的平台。只有当我们在世界上有声誉时,其他人才愿意与我们沟通。小李泉只知道自力更生,自强不息,掌握自力更生的关键技术,我们能否在国际上有发言权,让世界聆听中国的声音,让中国更好地了解国际前沿发展趋势。

对于小李泉和他的团队来说,目前的暑假并不存在。他正忙着带领团队全力以赴开发新一代高性能计算机,他的目标是拿起“下一代超级计算机王冠”。

《光明日报》(02版,2019年8月11日)

——