在超算 Top 500 榜单中登顶第一?
在sc16上最新公布的top500榜单中,突然杀出来的纯国产超算神威太湖之光(Sunway TaihuLight)达到了93P的linpack值,登顶榜单第一!并且中国拥有的超算数量首次持平美国!
http://www.top500.org/news/new-chinese-supercomputer-named-worlds-fastest-system-on-latest-top500-list/
看到回答中有提到神威蓝光和DEC alpha的,印象中alpha是因为内存模型太弱而退出市场的?
不知道就太湖之光的架构方面以及跑Linpack以外的实际应用能力,懂行的同学有什么更多的看法呢?intel那种通常架构上跑的应用方便移植吗,移植之后可能的性能情况?
愿国内超算的未来更美好!!!
213 个回答
赞同
反对,不会显示你的姓名

Sean中央处理器 (CPU)话题优秀回答者 oh by the way, wh…
白天看到这个消息非常振奋,当即就去找导师汇报!
我:“中国造了一台新超算,100PFlops!”
导师的第一反应是:“功耗多少?”
我:“15MW”
导师:“Holy sh*t!”
我:“他们没用 Intel 的芯片。”
导师:“oh that makes sense”
我也不是黑 Intel,但实在是x86架构的历史包袱太重了,想要实现 性能/功耗比的重大提升,这是一个迈不过去的坎。 我在 如何看待 19 岁少年想做出在目前 Intel 同等计算性能下降低 80% 功耗的全新电路系统芯片? - Sean 的回答 这个回答中就提到过,Rex Computing 的人在做的事之一就是砍掉Cache,用 Scratch Pad Memory 取而代之。而在太湖之光的众核架构中的大量 Slave core里面,采用了同样的思路,只保留了instruction cache。data cache用Scratch Pad Memory代替,避免了众核情况下的cache coherence带来的大量性能和功耗浪费。(Master core 里面有正常的Cache),我觉得这是太湖之光实现高性能/功耗比的一个重要原因。 而且Slave core只支持user mode,于是我猜测它在TLB上面应该也有精简。但目前 SW26010 芯片还没有详细的文档资料,所以这点我也只能猜测。
至于采用众核架构,可以说是大势所趋,美帝一些新的系统用的也是Intel的众核Knights Landing芯片,据说性能也很不错。
至于指令集,Jack Dongarra在他的报告里特意强调和Alpha的指令集没有关系,所以哪怕神威前几代芯片和Alpha 有渊源,但这次应该真没有。。
然后更令我惊喜的是不光系统搭起来跑了Linpack,而且还有三项应用入围了Gordon Bell奖的最终名单 (这个算是超算界最厉害的奖了)。充分说明太湖之光已经形成战斗力了啊!
最后冷静下来谈一谈不足之处: HPCG的跑分。为什么HPCG跑分重要?因为它比Linpack更接近真实应用的场景,更能体现出内存系统的瓶颈。用一个汽车的比喻来讲,Linpack的跑分更像是汽车的百米加速指标,而HPCG更像是到真实的赛道上去跑——这时候就不光是加大马力就能行的了,操控性等其他因素也很重要。

太湖之光在HPCG的测试下只达到了它0.3%的峰值性能,总的算下来还不如天河二号。说明其在 memory 和 network 的性能上存在很大的瓶颈。这其实还是挺不乐观的。
最最后还是不要掉以轻心,美帝这边正在奔着exa-scale (1000 Pflops) 努力,计划在2023年拿出性能达到exa-scale,功耗小于20MW 的超算。(美帝目前没有建造类似天河二的系统很大程度上是因为功耗的限制,放眼望去基本都是10MW 以下的) 眼前就有GPU带来的变革,DARPA 为此也投资了不少黑科技的项目, 而且这个新闻一出,估计跟国会要钱更容易了…… 革命尚未成功,同志仍需努力啊!
发布于 2016-06-21
赞同
反对,不会显示你的姓名

huangkun
791 人赞同
一个比较详细的测试报告:http://www.netlib.org/utk/people/JackDongarra/PAPERS/sunway-report-2016.pdf
Top 500排名第1
Graph 500排名第2
Green 500排名第3,这个排名比较的是 性能/功耗

这东西其实倒腾了很久了,和天河二号是同时立项的,目标都是100P。建造单位是国家并行计算机工程中心,属于军队研究单位,所以一直没有对外公布。本来预计是去年底就会发布的,一直拖到了现在。
神威系列的产品,其实一直都在部队内部运用,民用的不多,唯一宣传较多的就是济南超算的神威蓝光。获得国家最高科学技术奖的金怡濂院士,就曾经是神威系列的总设计师。
相比于机器本身,更值得期待是年底的Gordon Bell奖,这个ACM的Award是颁发给HPC领域的最前沿的应用的,代表着具体系统和实际应用结合的最高水平。中国目前还从未获得过,连入围最终阶段的应用都还没有(去年有个德国的应用在天河2上入围了)。而今年,在神威太湖之光上有2个应用(也有可能是3个)已经入围了11月份的Gordon Bell奖最终评审阶段,如果能够斩获最终的大奖,意义更大。
神威太湖之光的CPU架构是自己设计的, 计算单元包括两个部分,一个是主核,和普通的CPU类似。二是8*8的从核阵列。从核阵列相当于是GPU、MIC这一类的加速部件,可以直接访问主存,阵列行列之间可以进行快速的寄存器通信。

-----------------------------------------------------------------
ps:神威二字可是长者题字哦

编辑于 2016-06-21
赞同
反对,不会显示你的姓名

空明流转计算机图形学、C++、编程话题优秀回答者 本人政治错…
收录于 编辑推荐 •377 人赞同
嗯,终于有 @Sean 出手了,这个题目才算有价值的回答。
还有 @zodism 转帖的部分也很有意思。他自己写的部分是车轱辘话不看也罢。
超算冲榜,如果靠本国自研制的消费级CPU,不管是自有指令集和架构,还是仿制x86,继承Alpha的遗产,还是复活MIPS,甚至是借力ARM ISA,我个人认为 3-5 年内,都比较难有突破性的作品出现。
但是如果做流式的处理器或者是many cores那是有希望的。这一类产品的好处就是可以根据需求,调整控制和计算单元的配比,设计更高效的IO体系。这点我非常同意 Sean 的看法,On-chip local memory因为没有同步问题,协议简单可以针对特定应用,在较少面积较低功耗的情况下,做到很好的Bandwidth/Latency,是超算的一个方向。
事实上,以消费级芯片为计算核心的超算设计时间并不长。

x86-64主打的Supercomputer是从03年才开始的,IBM现在的Power芯片也都和消费级芯片区别不大。更早之前往往都是大型机的历史。
消费级芯片集群占据超算主流,主要是因为,
0. 消费级芯片性能的迅速提升
1. 这一等级芯片的巨大产量带来的廉价芯片
2. 节点上成熟的软件体系
3. 节点易于复用
但是一旦节点数量增长到一定限度,单芯片性能本身遇到瓶颈的时候,整体功耗和极为复杂的节点互联带来的可扩展性就开始成为了问题。大家都看到这个问题,但是消费级芯片的灵活性和软件的完备性又不是说替代就替代的。有同学认为,支持了 OpenACC 和 OpenMPI 就没有软件问题了,这完全是一厢情愿的美好愿景。
在可以预测的将来,超算应该会朝着异构集群的方向发展,在满足灵活性和软件适应性的情况下,对特定应用寻求更高的性能和性能功耗比。
现阶段能见到的方案就有(感谢评论栏中 李发 的提醒):
同构:京(K Computer)
异构:
从设备:GPU
主-从片内通讯:目前还没见到过,也许以后AMD的hUMA会出超算?
主-从片间通讯:天河1,Titan(AMD Opteron + Tesla)
从设备:Slave Cores
主-从片内通讯:神威,下一代Phi Cores
主-从片间通讯:天河2(Xeon + Phi)
这些体系各有各的优势。
论易用性和软硬件成熟度,同构高于其它,片间通讯又要比片内的主从结构方便一些(这个并不绝对),Many Cores比GPU方便一些。但是可并行的计算密集型应用的话,片内通讯的CPU+GPU最经济。
所以神威现在于Linpack上的领先地位,我个人认为更多是来自于代际不同。
这是一个非常好的起点,起码以后中美在做Exa级别的架构、互联、应用上已经是同场竞技了,这点从中美两国超算建设的Roadmap上就能看出来。而且做个大胆的预测,除非以后光路计算机得到广泛应用,否则即便是量子计算机出现,超算也不会跳脱现有的异构体系,新体系很可能是未来数十年的基础。
但是这个代际之间的转换并不是免费的,牺牲了HPCG换来了Linpack,牺牲了一些Master换来了一大批Slave。这就意味着现有的设计,总是会在一些场景下不如以前。
对于神威的军方背景,面临的问题相对单一。以核爆模拟为主的计算,Linpack对他们来说或许是最合适的测试,这一点Gordon Bell提名是个非常有利的支持证据。
但是对民用超算而言,场景更加复杂多变。这时应当能见到很多来自于Master的瓶颈。所以要想有更加强力的民用超算,消费级/通用 CPU 还有待继续发展。
而天河和神威,也应该是一对互补的超算系统,分别适用于不同的应用场景,在各自的领域他们都是最顶级的计算设备。撇开场景直接将指标相比较,是不太合适的。
编辑于 2016-06-22

舒乐乐 记得提醒我写个地图科普文。
957 人赞同
昨天早上在新闻上看到此消息,非常感动。私以为这是与“两弹一星”同等级的事件。
本以为美分喷子们应该找不出喷点,结果喷子的数量、质量和智商突破我的想像力,基本上都不去求证相关消息,甚至连新闻原文都没看完,看标题就开喷。
所以我来搬运一点Home | TOP500 Supercomputer Sites的原始内容。

下图是超算是逐年统计。从2013年起,中国一直是第一名,之前天河2六连冠,现在开始神威太湖之光将会在第一名位置待上一段时间。 无论在美国网友还是中国网友看来,未来中国的超算将继续保持在下图的褚色线上若干年(文后有图为证)。

当前超算各国份额:

以超算速率做为面积比重,分国家做出来的图,黄色部分为中国,红色是美国,然后是其它国家。

以内核数量做为面积比重,分国家做出来的图,黄色部分为中国,红色是美国。

以下三个方图(TreeMap)的面积比例都是根据超算速率(Rmax)来画的——如果按照峰值速率(Rpeak)或者内核数量(Cores)的话,太湖之光占比会更高。
一颗CPU里面有260核,听着都吓人。作为外行,不知道功耗为啥还那么低。



从以上的四个图上看,现在神威所使用的架构是小众,或者是极小众的东西,但是在超算方面的能量却是巨大的;前三张图能看出来申威的CPU功能强大,却只此一家用,所以最重要开拓市场,大卖大卖。
接起来当有国际买家想买超算的时候,申威的CPU和神威的超算结构将是买家一定会考虑的选项。虽然可能在软件支持方面可能略有短板,但作为一流超算做复杂配置是免不了的,而且随着市场变大,软件支持会快速增长。
最后再YY几句,以这些中国的习惯,只要是中国人看上的东西,很快会变成白菜价。这种众核CPU会在中国工程师的努力下成白菜价,让全世界的人民都用得上便宜实惠的超算系统——以后就让美国政府自己买又贵又吃电的X86去吧。
咱们要努力让每个中国大学都用得上超算——比如没超算资源就不许开物理学、数学、天文学、核能、水文学、气象学,航空动力专业。 不同地区的大学应该以股份形式建立地区性的超算中心。
补充一点:
1 有人说“美国一禁运,中国就突破”,“感谢美国禁运之恩”。 当然我同意美国的禁运无法遏制中国的科技发展,但是这些话传着传着传出了这么一种味道“如果不是因为美国的禁运,中国人不会争气去突破技术难关”。 据现有我所看到的资料说,申威CPU的研发早在几十年前已经开始了。 如果说因为2015年4月美国超算CPU的禁运之后,政府才觉醒要自强,怕是到2016年6月根本连队伍都建立不起来。 而且根据某个报道说,在美国禁运CPU之时,科研方已经研发好了,只因时机未到还处于保密状态。
2 说神威名字难听的,请读读下面的这些诗词,每行都出自不同的诗词。:
将军逐马关中来,神威掠地风云摧(宋末元初·金涓)
倒卷黄河,风浪涌神威 江梅引(元·王吉昌)
神威烈,把黄河倒卷,白浪翻空 沁园春 龙(元·王玠)
通玄妙,看余家手段,别有神威 沁园春(元·侯善渊)
吾作变通力,要之出神威
仗雷电神威,风云圣算,何往无成。 木兰花慢(元·胡祗遹)
神威清北塞,王气接南京(明·程通)
六龙飞天天下睹,皇度神威谁敢侮(明·韩雍)
洒墨起云端,神威耸众观
倚天长剑,凛凛神威
张我虎神威,何难驱群羊
神威欲挟雷霆下,大业常同江汉流。
别具神威临异域,不教正统擅中华
渐酒醒人远,要凭寒剑,把神威借(近现代·龙榆生)。
分割线后是外国网站上的一点内容
6/22补充一点近些天来外国媒体和网友的表现。
我的翻译只是个大概意思,为了气氛加了点个人创作,大意没错——错的严重就指出来我改。
Twitter几个媒体,都是简单一句话,没提我们自主芯片的事儿。

INTEL只提它自己。 根据top500的数据,仅太湖之光就占了16%的system power,intel说自己占了91%是怎么来的? 即使不算IBM和神威蓝光,你最多也只有84%啊。 也许你选择了intel特殊算法。

能扫雷吗? 原来处处有这样的人。



......