转贴：如何评价神威太湖之光打败天河二号-求真知-万维博客-万维读者网（电脑版）

网络日志正文

		转贴：如何评价神威太湖之光打败天河二号	2016-12-10 11:57:55

(原文链接：)

如何评价神威太湖之光打败天河二号

在超算 Top 500 榜单中登顶第一？

在sc16上最新公布的top500榜单中，突然杀出来的纯国产超算神威太湖之光（Sunway TaihuLight）达到了93P的linpack值，登顶榜单第一！并且中国拥有的超算数量首次持平美国！
http://www.top500.org/news/new-chinese-supercomputer-named-worlds-fastest-system-on-latest-top500-list/

看到回答中有提到神威蓝光和DEC alpha的，印象中alpha是因为内存模型太弱而退出市场的？

不知道就太湖之光的架构方面以及跑Linpack以外的实际应用能力，懂行的同学有什么更多的看法呢？intel那种通常架构上跑的应用方便移植吗，移植之后可能的性能情况？

愿国内超算的未来更美好！！！

57 条评论

213 个回答

赞同

反对，不会显示你的姓名

Sean中央处理器 (CPU)话题优秀回答者 oh by the way, wh…

白天看到这个消息非常振奋，当即就去找导师汇报！

我：“中国造了一台新超算，100PFlops！”

导师的第一反应是：“功耗多少？”

我：“15MW”

导师：“Holy sh*t!”

我：“他们没用 Intel 的芯片。”

导师：“oh that makes sense”

我也不是黑 Intel，但实在是x86架构的历史包袱太重了，想要实现性能/功耗比的重大提升，这是一个迈不过去的坎。我在如何看待 19 岁少年想做出在目前 Intel 同等计算性能下降低 80% 功耗的全新电路系统芯片？ - Sean 的回答这个回答中就提到过，Rex Computing 的人在做的事之一就是砍掉Cache，用 Scratch Pad Memory 取而代之。而在太湖之光的众核架构中的大量 Slave core里面，采用了同样的思路，只保留了instruction cache。data cache用Scratch Pad Memory代替，避免了众核情况下的cache coherence带来的大量性能和功耗浪费。（Master core 里面有正常的Cache），我觉得这是太湖之光实现高性能/功耗比的一个重要原因。而且Slave core只支持user mode，于是我猜测它在TLB上面应该也有精简。但目前 SW26010 芯片还没有详细的文档资料，所以这点我也只能猜测。

至于采用众核架构，可以说是大势所趋，美帝一些新的系统用的也是Intel的众核Knights Landing芯片，据说性能也很不错。

至于指令集，Jack Dongarra在他的报告里特意强调和Alpha的指令集没有关系，所以哪怕神威前几代芯片和Alpha 有渊源，但这次应该真没有。。

然后更令我惊喜的是不光系统搭起来跑了Linpack，而且还有三项应用入围了Gordon Bell奖的最终名单（这个算是超算界最厉害的奖了）。充分说明太湖之光已经形成战斗力了啊！

最后冷静下来谈一谈不足之处： HPCG的跑分。为什么HPCG跑分重要？因为它比Linpack更接近真实应用的场景，更能体现出内存系统的瓶颈。用一个汽车的比喻来讲，Linpack的跑分更像是汽车的百米加速指标，而HPCG更像是到真实的赛道上去跑——这时候就不光是加大马力就能行的了，操控性等其他因素也很重要。

太湖之光在HPCG的测试下只达到了它0.3%的峰值性能，总的算下来还不如天河二号。说明其在 memory 和 network 的性能上存在很大的瓶颈。这其实还是挺不乐观的。

最最后还是不要掉以轻心，美帝这边正在奔着exa-scale （1000 Pflops) 努力，计划在2023年拿出性能达到exa-scale，功耗小于20MW 的超算。（美帝目前没有建造类似天河二的系统很大程度上是因为功耗的限制，放眼望去基本都是10MW 以下的）眼前就有GPU带来的变革，DARPA 为此也投资了不少黑科技的项目，而且这个新闻一出，估计跟国会要钱更容易了…… 革命尚未成功，同志仍需努力啊！

发布于 2016-06-21 170 条评论

赞同

反对，不会显示你的姓名

huangkun

791 人赞同

一个比较详细的测试报告：http://www.netlib.org/utk/people/JackDongarra/PAPERS/sunway-report-2016.pdf

Top 500排名第1
Graph 500排名第2
Green 500排名第3，这个排名比较的是性能/功耗

这东西其实倒腾了很久了，和天河二号是同时立项的，目标都是100P。建造单位是国家并行计算机工程中心，属于军队研究单位，所以一直没有对外公布。本来预计是去年底就会发布的，一直拖到了现在。

神威系列的产品，其实一直都在部队内部运用，民用的不多，唯一宣传较多的就是济南超算的神威蓝光。获得国家最高科学技术奖的金怡濂院士，就曾经是神威系列的总设计师。

相比于机器本身，更值得期待是年底的Gordon Bell奖，这个ACM的Award是颁发给HPC领域的最前沿的应用的，代表着具体系统和实际应用结合的最高水平。中国目前还从未获得过，连入围最终阶段的应用都还没有（去年有个德国的应用在天河2上入围了）。而今年，在神威太湖之光上有2个应用（也有可能是3个）已经入围了11月份的Gordon Bell奖最终评审阶段，如果能够斩获最终的大奖，意义更大。

神威太湖之光的CPU架构是自己设计的，计算单元包括两个部分，一个是主核，和普通的CPU类似。二是8*8的从核阵列。从核阵列相当于是GPU、MIC这一类的加速部件，可以直接访问主存，阵列行列之间可以进行快速的寄存器通信。

-----------------------------------------------------------------

ps：神威二字可是长者题字哦

编辑于 2016-06-21

赞同

反对，不会显示你的姓名

空明流转计算机图形学、C++、编程话题优秀回答者本人政治错…

收录于编辑推荐 •377 人赞同

嗯，终于有 @Sean 出手了，这个题目才算有价值的回答。
还有 @zodism 转帖的部分也很有意思。他自己写的部分是车轱辘话不看也罢。

超算冲榜，如果靠本国自研制的消费级CPU，不管是自有指令集和架构，还是仿制x86，继承Alpha的遗产，还是复活MIPS，甚至是借力ARM ISA，我个人认为 3-5 年内，都比较难有突破性的作品出现。

但是如果做流式的处理器或者是many cores那是有希望的。这一类产品的好处就是可以根据需求，调整控制和计算单元的配比，设计更高效的IO体系。这点我非常同意 Sean 的看法，On-chip local memory因为没有同步问题，协议简单可以针对特定应用，在较少面积较低功耗的情况下，做到很好的Bandwidth/Latency，是超算的一个方向。

事实上，以消费级芯片为计算核心的超算设计时间并不长。

x86-64主打的Supercomputer是从03年才开始的，IBM现在的Power芯片也都和消费级芯片区别不大。更早之前往往都是大型机的历史。

消费级芯片集群占据超算主流，主要是因为，

0. 消费级芯片性能的迅速提升
1. 这一等级芯片的巨大产量带来的廉价芯片
2. 节点上成熟的软件体系
3. 节点易于复用

但是一旦节点数量增长到一定限度，单芯片性能本身遇到瓶颈的时候，整体功耗和极为复杂的节点互联带来的可扩展性就开始成为了问题。大家都看到这个问题，但是消费级芯片的灵活性和软件的完备性又不是说替代就替代的。有同学认为，支持了 OpenACC 和 OpenMPI 就没有软件问题了，这完全是一厢情愿的美好愿景。

在可以预测的将来，超算应该会朝着异构集群的方向发展，在满足灵活性和软件适应性的情况下，对特定应用寻求更高的性能和性能功耗比。

现阶段能见到的方案就有（感谢评论栏中李发的提醒）：

同构：京（K Computer）
异构：

从设备：GPU

主-从片内通讯：目前还没见到过，也许以后AMD的hUMA会出超算？
主-从片间通讯：天河1，Titan（AMD Opteron + Tesla）

从设备：Slave Cores

主-从片内通讯：神威，下一代Phi Cores
主-从片间通讯：天河2（Xeon + Phi）

这些体系各有各的优势。
论易用性和软硬件成熟度，同构高于其它，片间通讯又要比片内的主从结构方便一些（这个并不绝对），Many Cores比GPU方便一些。但是可并行的计算密集型应用的话，片内通讯的CPU+GPU最经济。

所以神威现在于Linpack上的领先地位，我个人认为更多是来自于代际不同。
这是一个非常好的起点，起码以后中美在做Exa级别的架构、互联、应用上已经是同场竞技了，这点从中美两国超算建设的Roadmap上就能看出来。而且做个大胆的预测，除非以后光路计算机得到广泛应用，否则即便是量子计算机出现，超算也不会跳脱现有的异构体系，新体系很可能是未来数十年的基础。

但是这个代际之间的转换并不是免费的，牺牲了HPCG换来了Linpack，牺牲了一些Master换来了一大批Slave。这就意味着现有的设计，总是会在一些场景下不如以前。
对于神威的军方背景，面临的问题相对单一。以核爆模拟为主的计算，Linpack对他们来说或许是最合适的测试，这一点Gordon Bell提名是个非常有利的支持证据。

但是对民用超算而言，场景更加复杂多变。这时应当能见到很多来自于Master的瓶颈。所以要想有更加强力的民用超算，消费级/通用 CPU 还有待继续发展。

而天河和神威，也应该是一对互补的超算系统，分别适用于不同的应用场景，在各自的领域他们都是最顶级的计算设备。撇开场景直接将指标相比较，是不太合适的。

编辑于 2016-06-22

舒乐乐记得提醒我写个地图科普文。

957 人赞同

昨天早上在新闻上看到此消息，非常感动。私以为这是与“两弹一星”同等级的事件。

本以为美分喷子们应该找不出喷点，结果喷子的数量、质量和智商突破我的想像力，基本上都不去求证相关消息，甚至连新闻原文都没看完，看标题就开喷。
所以我来搬运一点Home | TOP500 Supercomputer Sites的原始内容。

下图是超算是逐年统计。从2013年起，中国一直是第一名，之前天河2六连冠，现在开始神威太湖之光将会在第一名位置待上一段时间。无论在美国网友还是中国网友看来，未来中国的超算将继续保持在下图的褚色线上若干年（文后有图为证）。

当前超算各国份额：

以超算速率做为面积比重，分国家做出来的图，黄色部分为中国，红色是美国，然后是其它国家。

以内核数量做为面积比重，分国家做出来的图，黄色部分为中国，红色是美国。

以下三个方图（TreeMap）的面积比例都是根据超算速率（Rmax）来画的——如果按照峰值速率(Rpeak)或者内核数量(Cores)的话，太湖之光占比会更高。
一颗CPU里面有260核，听着都吓人。作为外行，不知道功耗为啥还那么低。

从以上的四个图上看，现在神威所使用的架构是小众，或者是极小众的东西，但是在超算方面的能量却是巨大的；前三张图能看出来申威的CPU功能强大，却只此一家用，所以最重要开拓市场，大卖大卖。
接起来当有国际买家想买超算的时候，申威的CPU和神威的超算结构将是买家一定会考虑的选项。虽然可能在软件支持方面可能略有短板，但作为一流超算做复杂配置是免不了的，而且随着市场变大，软件支持会快速增长。

最后再YY几句，以这些中国的习惯，只要是中国人看上的东西，很快会变成白菜价。这种众核CPU会在中国工程师的努力下成白菜价，让全世界的人民都用得上便宜实惠的超算系统——以后就让美国政府自己买又贵又吃电的X86去吧。
咱们要努力让每个中国大学都用得上超算——比如没超算资源就不许开物理学、数学、天文学、核能、水文学、气象学，航空动力专业。不同地区的大学应该以股份形式建立地区性的超算中心。

补充一点：
1 有人说“美国一禁运，中国就突破”，“感谢美国禁运之恩”。当然我同意美国的禁运无法遏制中国的科技发展，但是这些话传着传着传出了这么一种味道“如果不是因为美国的禁运，中国人不会争气去突破技术难关”。据现有我所看到的资料说，申威CPU的研发早在几十年前已经开始了。如果说因为2015年4月美国超算CPU的禁运之后，政府才觉醒要自强，怕是到2016年6月根本连队伍都建立不起来。而且根据某个报道说，在美国禁运CPU之时，科研方已经研发好了，只因时机未到还处于保密状态。
2 说神威名字难听的，请读读下面的这些诗词，每行都出自不同的诗词。：

将军逐马关中来，神威掠地风云摧（宋末元初·金涓）

倒卷黄河，风浪涌神威江梅引（元·王吉昌）

神威烈，把黄河倒卷，白浪翻空沁园春龙（元·王玠）

通玄妙，看余家手段，别有神威沁园春（元·侯善渊）　

吾作变通力，要之出神威

仗雷电神威，风云圣算，何往无成。木兰花慢（元·胡祗遹）

神威清北塞，王气接南京（明·程通）

六龙飞天天下睹，皇度神威谁敢侮（明·韩雍）

洒墨起云端，神威耸众观

倚天长剑，凛凛神威

张我虎神威，何难驱群羊

神威欲挟雷霆下，大业常同江汉流。