超级计算机是计算机中功能最强、运算速度最快、存储容量最大的一类计算机,多用于国家高科技领域和尖端技术研究,是国家科技发展水平和综合国力的重要标志。 随着超级计算机运算速度的迅猛发展,它也被越来越多的应用在工业、科研和学术等领域。我国现阶段超级计算机拥有量为22台(中国内地19台,香港1台,台湾2台),居世界第5位,就拥有量和运算速度在世界上处于领先地位,但就超级计算机的应用领域来说我们和发达国家美国、德国等国家还有较大差距。如何利用超级计算机来为我们的工业、科研和学术等领域服务已经成为我们今后研究发展的一个重要课题。超级计算机是一个国家科研实力的体现,它对国家安全,经济和社会发展具有举足轻重的意义。我国超级计算机及其应用的发展为我国走科技强国之路提供了坚实的基础和保证。 作为高科技发展的要素,超级计算机早已成为世界各国经济和国防方面的竞争利器。经过我国科技工作者几十年不懈地努力, 我国的高性能计算机研制水平显著提高,成为继美国、日本之后的第三大高性能计算机研制生产国。
Summit超级计算机是IBM计划研发的一款超级计算机,其计算性能将超过中国TaihuLight超级计算机。预计将在2018年初提供给美国能源部橡树岭国家实验室,计算性能比原定指标提升四分之一以上。发展历程收起
2013年6月起,中国超算长期蝉联第一,美国的超级计算机再未问鼎全球超算top500榜单。而Summit的问世让这一宝座终易主。
1988年,ORNL的科学家们完成了首次G浮点(gigaflops)运算,1998年完成了首次T浮点(teraflops)运算,2008年完成了首次P浮点(petaflops)运算,2018年又完成了首次exaops计算。
超级计算机Summit的发布让美国向“2021年交付E级超算”的目标又迈进了一步。它将在能源研究、科学发现、经济竞争力和国家安全等方面带来深远影响,助力科学家们在未来应对更多新的挑战,促进科学发现和激发科技创新
中国计划于2020年推出首台E级超算;美国能源部启动了“百亿亿次计算项目(Exascale Computing Project)”,希望于2021年至少交付一台E级超算,其中一台的名字为“极光(Aurora)”,初步规划峰值运算能力超过每秒130亿亿次,内存超过8PB,系统功耗约为40MW。
欧盟预计于2022年—2023年交付首台E级超算,使用的是美国、欧盟处理器,架构有可能类似ARM;日本发展E级超算的“旗舰2020计划”由日本理化所主导,完成时间也设定在2020年。
工作原理收起
这台让美国重夺世界第一的Summit超算系统由4608台计算服务器组成,每个服务器包含两个22核Power9处理器(IBM生产)和6个Tesla V100图形处理单元加速器(NVIDIA生产)。Summit还拥有超过10PB的存储器,配以快速、高带宽的路径以实现有效的数据传输。
凭借每秒高达20亿亿次(200PFlops)的浮点运算速度峰值,Summit的威力将是ORNL之前排名第一的系统Titan的8倍,相当于普通笔记本电脑运算速度的100万倍,比之前位于榜首的中国超级计算机“神威?太湖之光”峰值性能(每秒12.5亿亿次)快约60%。
为了给客户提供很高的I/O吞吐量,率很高,节点将使用Mellanox公司的双轨InfiniBand EDR连接以无阻塞胖树架构互联。
性能数据收起
Summit超级计算机采用IBM Power9微处理器和NVIDIA Volta GPU进行数学协同处理。Summit的前身Titan超级计算机,拥有超过18000个节点,而Summit将有约3400个节点。每个节点将拥有至少500GB相干内存,以及800GB非易失性内存。
Summit超级计算机原定计算性能是150petaflops,交付性能达到200petaflops。中国的TaihuLight超级计算机性能指标是93 petaflops,峰值性能是124.5petaflops。IBM这款超级计算机交易据说价值3.25亿美元。
产品应用收起
建成后,Summit将可以解决一些世界上最紧迫的计算挑战。
国内现在同时启动了三大百亿亿次超算研发,分别是国防科大/天津超算中心的天河三号、中科曙光的E级超算以及江南所/济南超算中心的神威E级。以上三套百亿亿次超算中,有一条要求是共同的,那就是核心处理器必须是国产的,神威?太湖之光上已经用了国产申威SW26010处理器。
今天咱们来看看天河2号超级计算机怎么搭出来的。
天河二号由国防科技大学和浪潮合作研制,2013年至2014年蝉联全球超级计算机第一名。不过性能是拿钱堆出来的,造价25亿人民币,一天满负荷运转要耗电费40万元。看看下面的配置就知道为什么花这么多钱了。从这么多CPU看得出来,CPU厂商是多么喜欢超级计算机。不过美国政府对中国禁运高端CPU之后,Intel的销售估计都要哭死了。
怎么从一个个芯片组装成一台超级计算机?看下图。16000个计算节点,其实就是主板,汇集成32个Frame,再组成4个Rack,最后组成了超算系统。
超级计算机的基础节点包括三种:16000个计算节点,4096个管理节点,256个IO节点和64个存储服务器。
先看看最小的组件:计算节点。2 个Intel Ivy Bridge CPU + 3个 Intel Xeon Phi 。CPU之间用QPI总线互联,一般NUMA架构是这么做的。每个CPU有自己的DIMM内存,一共64GB。还通过PCIex16连到内部高速互联网络,GDDR5内存。GDDR5内存有一个专门的CPU管理。两个万兆网卡估计是管理用的。这样一个节点计算性能最高可以到3.432Tflops,
计算节点物理上坐落于计算刀片服务器。如下图,蓝色的是Xeon Phi处理器,黑色的估计就是Ivy Bridge CPU,所以一个刀片服务器包含了两个节点。
再来看看用国产飞腾CPU搭建的管理节点,性能是144GFlops。飞腾CPU是国防科大研制的,目前有几种型号,天河2号采用的FT-1500基于 Sparc V9架构。为了便于商业化推广,飞腾还推出了兼容ARM64位指令集的FT-1500A系列。FT-1500A目前包括4核和16核两款产品。其中4核处理器芯片主要面向桌面终端和轻量级服务器应用领域,面向服务器应用领域的是16核处理器芯片。据称,FT-1500A系列处理器与Intel 2010年的处理器性能相当 。
来看看这颗基于Sparc架构的FT-1500架构。采用40nm工艺,1.8GHz,16核,功耗约65瓦。计算架构采用了SIMD(Single Instruction Multiple Data),一条指令可以同步让多组数据执行。如下图,一个CPU有四个DDR3接口,IO带宽很高。
天河2号有256个IO节点和64个存储服务器,总共存储容量12.4PB。既然是超级计算机,自然要使用高性能的固态硬盘SSD,每个IO节点有2TB的SSD,IO带宽达到5GB/s,从下图可以看出1个2TB SSD由5个400GB 小SSD组成,那估计每个的带宽是1GB/s。IO节点对外有两种接口:高速互联接口和Infiniband QDR存储网络接口。阿呆猜想高速互联网络是用来输出数据给计算节点,IB接口是IO节点之间数据共享用的。采用了Hybrid hierarchy file system,H2FS,数据保存在每个节点本地,但是相互之间也能共享。
这么多节点怎么组成超级计算机呢?下面就是组网图。关键的设备是中间的13个交换机,每个交换机有576个端口!
更加难能可贵的是,高速互联芯片都是纯国产。包括网络路由芯片NRC和网络接口芯片NIC。
NRC采用90nm工艺,大小为17.16mm*17.16mm,2577个管脚,带宽为2.56 Tbps。这么多管脚估计也是为了增加端口数。
NIC也是90nm工艺,大小10.75mm*10.76mm,675个管脚。
说到超算,就不得不提制冷系统,这么一台庞大的机器,没有有效的制冷,估计就着火了。天河2号采用了紧耦合水冷系统,整台机器功耗17.6MW,加上制冷系统就是24MW。制冷用了27%的电。
天河有自己的软件架构,如下图。对用户来说,最重要的是用户的编程接口,有些用户为了搞个研究,写这个程序就得花上几年。很多时候政府推动的项目硬件给很多经费,设备都很不错,但是领导舍不得给软件投钱,毕竟展示效果没那么壮观,所以软件往往是短板,用户使用不便,先进设备的利用率就不高。
天河支持下列编程语言。值得一提的是OpenMC语言,比CUDA和OpenCL的抽象级别更高,在CPU等各种资源之上有一个统一的逻辑层。各种计算任务异步执行,同时分配到不同的设备上。
对管理者来说,这么多节点的资源调度和监控也是很重要的。如下图,每台机器安装了国产麒麟Linux操作系统,其实也是国防科大主导的。
我们搞存储的最关心的就是存储软件架构了。数据分为本地存储和共享存储,共享存储使用了超算流行的Lustre分布式文件系统,这种文件系统对于大文件访问性能不错。用户使用POSIX接口读写文件。不过数据密集型应用用Layout接口和Policy接口访问数据。
总结一下,一台超级计算机其实就是很多小计算机的集合,当然难点在大家的高速互联和同步。
欢迎分享,转载请注明来源:夏雨云
评论列表(0条)