E级超算花落谁家
今年美国超级计算机胜过中国,成为世界最快的计算机。但是美国商务部的决策错误影响了美国的进步,中国超算三年后竞争第一的势头不可忽视。
中国国防科技大学宣布,未来3年内,将造出新一代“天河三号”E级超级计算机。E级超算,是指每秒钟运算一百亿亿次的超级计算机。今年6月美国SUMMIT超算超过中国的神威太湖之光,登顶全球最快超算TOP500榜单之后,中国,美国,日本和欧洲,纷纷加快了研制速度。其中,中美日三国进度领先,都计划在2021年左右研发E级完毕,欧洲的计划则要落后几年。
国防科大公布天河三号原型机进度前一个礼拜,TOP500总编发了一份预测文章。文章总结了全球超算领域最大的三个新闻,一个是日本富士通开发Post-K超算的进度,一个是美国SUMMIT系统重新夺回TOP500榜单的冠军,第三是预测中国的超算计划需要推后一年,从领先美日一年推后到和美日同一年完成。理由是:中国需要从三种国产CPU之中选出一种,需要做更加详尽的评估,所以需要推迟。
文章中提到的中国的三种国产CPU是:上海的申威系列,国防科大的ARM架构的飞腾系列,以及天津使用ZEN内核的X86架构处理器。
TOP500总编辑没有意识到,中国超级计算机的研发上从来都是多种方案齐头并进,互为备份,以降低风险的。并不存在需要从三种国产CPU种选出一种,再进行研发的惯例。 实际上,中国目前正在同时进行的E级超算项目有三个:
天河三号 2018年5月,国家超算天津中心展示了天河三号原型机,预计2018年底投入使用,根据国防科大日前的新闻,目前的进度已经提前,不是推迟。 天河三号的全配置主机计划在2020年投入使用,性能计划为1EFlops. 天河三号使用国防科大的FT2000plus或者后续型号的CPU,以及国防科大的Matrix2000plus或者后续型号的加速器。
神威E级 2018年7月神威E级原型机落户于国家超算济南中心,还需要三年的研发时间,将在2021年正式投入使用。神威的CPU肯定是申威系列的最新型号,加速器可能也会采用Matrix2000plus或者其后续型号。 曙光E级 2016年7月,中科曙光牵头的E级超算原型系统项目正式发布,在核心技术方面,曙光介绍了超融合自适应并行处理体系结构(HCAPP)和全浸没式相变液冷技术(整台超算浸没在冷却液中)。曙光估计会采用中科院体系内研发的CPU和加速器(比如龙芯系列)。曙光E级的计划部署时间也会在2020年左右。
天河三号原型机的出现,反映美国商务部的误导的后果。天河系列超算,从天河1号开始就一直使用美国公司制造的CPU和加速器芯片。比如,天河2号使用Intel Xeon E5 CPU和Intel Xeon Phi加速器芯片,而天河2A仍然使用Intel Xeon E5 CPU,加速器芯片换成了国产Matrix2000。天河2号从2013年6月登顶TOP500排行榜,成为世界上运算速度最快的超算,一直到2016年6月让位于神威太湖之光,整整领先世界了三年之久,其后中国神威接替第一名两年,直到2018被美国summit接替世界第一。
2015年4月,美国商务部宣布对中国的四家超算机构禁运Intel Xeon处理器和Xeon Phi加速器。受到禁运的四家中国机构是:国家超级计算长沙中心,国家超级计算广州中心,国家超级计算天津中心和国防科技大学。
为反制美国禁运,天河三号从CPU(飞腾),到加速器芯片(Matrix2000plus), 到接口芯片,路由芯片,全都采用国产货;新型的计算处理、高速互连、并行存储、服务处理、监控诊断、基础架构等硬件分系统全都是国产原创设计;系统操作、并行开发、应用支撑和综合管理等软件分系统全面国产可控。
天河三号和美国的Aurora超算,作为人类第一批E级超算,争夺未来TOP500的冠军。目前TOP500排名第一的美国SUMMIT超算的运算速度约为每秒12亿亿次,约为E级超算的12%。但SUMMIT系统的升级空间有限,美国的第一台E级超算为Aurora (原计划运算速度为18.5亿亿次), 将安装在Argonne 国家实验室,原计划2018年底投入使用,后被推迟到2021年投入使用,性能将提升到1E Flops,即100亿亿次。Aurora进度推迟美国商务部要负责,因其计划使用Intel Xeon CPU和Xeon Phi加速器,但是Intel 的Xeon Phi加速器已经在2017年8月停产,而基于10nm制程工艺的下一代Xeon Phi加速器,Intel目前还根本没有具体计划。 美国政府打击中国超算,却先打击了Intel芯片。
中国的天河2号分别使用了3.2万颗Xeon E5 CPU和4.8万颗Xeon Phi加速器。对于Xeon Phi的销量,Intel曾表示2016年的目标是10万颗出货量,单单中国天河2号就达到了Intel一半的Xeon Phi销量。
2015年4月,美国宣布对中国禁运Intel的Xeon处理器和 Phi加速器。2016年6月,Xeon Phi 7290/7250加速器价格直接大跌一半。2017年8月,Intel 宣布Xeon Phi 7200系列加速卡停产退市,停产重要原因是失去了中国超算市场。中国流行语“搬起石头砸自己的脚”,译成美语可能是Burns its own tail。 未来E级超算的竞争,也是核心处理器的竞争。美国的SUMMIT系统使用的是IBM Power9处理器和Nvidia Tesla加速器,其第一台E级超算的处理器和加速器方案还有待公布。
日本的第一台E级超算将是富士通公司的Post-K系统,使用富士通公司设计的ARM众核处理器。欧洲国家也为下一代超算开发处理器,基于ARM架构和RISC-V架构,这项工作的推动力量是欧洲处理器计划(EPI),该计划目标是发展不依赖于美国芯片制造商的超算制造能力,尤其是要摆脱对Intel, AMD,Nvidia和IBM的依赖。
欧洲和日本的问题时,均没有最先进的半导体制程技术。全球逻辑器件(不包括闪存和内存)的最先进制程工艺掌握在四家企业手中:台湾的台积电,韩国的三星,美国的Intel和 Global Foundries. 这四家企业的逻辑器件制程工艺已经在向10纳米以下发展。而欧洲和日本的制程工艺目前还停留在28纳米以上。这意味着,欧洲和日本公司设计的先进处理器,他们自己制造不了,必须由台积电,三星或者Global Foundries代工,无法摆脱外间控制。
中国的中芯国际正在向14纳米的制程工艺进军,将于2019年上半年量产。这意味着中国的超算芯片将会使用14纳米的工艺,超算芯片的性能会迎来一次跃进,10纳米以下工艺计划逐步接近。
对于关注超算领域的人来说,2020-2021年是热闹的两年。人类首批E级超算将投入使用。而在这场竞赛中,中国超算再夺第一名,不是全无希望。
|