深析CrayXC系列超算架构:高性能计算中Dragonfly网络互联拓扑
美国CORI科里超级计算机,部署在美国国家能源研究科学计算中心(简称NERSC), Cori超级计算机的命名是纪念美国著名的生物化学家Gerty Cori(格蒂·科里),第一个获得诺贝尔奖的美国女科学家。
CORI由Cray/HPE公司设计交付,在2016年11月Top500排名第5。最新的2020年6月top500排名第17位。Cori由2388个英特尔的32-Core 2.3GHz  Intel Haswell处理器节点+ 9688个Intel Xeon Phi 7250 68- Core 1.4GHz节点。计算节点网络由Cray公司开发的Aries高速"Dragonfly"网络互联架构实现计算节点高效互联。
下图是Top500网站上列出的CORI超级计算机在top500中的历次排名。
下面我们深入分析一下Cray XC系列超级计算机架构,并重点对Aries网络进行分析。
01-Cray XC系列超算硬件架构
Cray自1972年创立之后,专注超级计算机研发,有着超级计算机之父之称,2019年被HPE收购。其设
计一个好的超级计算机的秘密在于:
1.选择最新最好的CPU处理器架构
2.开发构建一个围绕CPU互联的高带宽网络,实现网络互联,和本地内存快速数据访问
3.系统高扩展性
3.1,消除OS的限制
3.2,高可靠性和高弹性设计
3.3,可扩展系统管理
3.4,可扩展的IO架构
3.5,可扩展的编程和性能工具
Cray XC40超级计算机,采用大规模并行处理MPP架构设计,是由成千上万个单独的计算节点组成。作为一个整体超级计算机,单个计算节点需要网络实现跨节点通信。Cray设计的Aries 高速"Dragonfly"网络是一个高速、低延时互联网络,并致力于优化互联的带宽和降低成本。
如上图,Cray XC系列超级计算机硬件主要有以下模块组成:
•计算刀片。由4个计算节点组成。
•机箱。由16个计算刀片组成,共计64个计算节点。用路由器连接两台电脑
•机柜组。由2个机柜互联组成一组,共6个机箱,每机柜3个机箱,共计384个计算节点。
•系统级全互联。由光纤跳线实现跨机柜组全互联架构,可根据规模实现数百个机柜互联,最多可支持上万个计算节点。
如上图,机箱Chassis是Cray XC系列超算的主要组成部分。一个机柜可以放3个机箱:
•单个机柜有3个机箱组成。
•每个机箱,由16个计算刀片组成。
•每个计算刀片由4个计算节点组成。
Cray XC40计算刀片组成结构如上图所示,其主要特点如下:
•每一个计算刀片包含4个计算节点。
•每个计算节点,由2个物理Socket组成。单个刀片共8路物理CPU。
•4个计算节点连接到同一个Cray 设计的Aries网络路由
ASIC芯片。