未来已来，腾讯AI计算网络

微信邦 · 发表于 2017-3-25 20:59:38

毫无疑问，人工智能是近年IT界最火的研究方向，特别在2016年Alpha GO这一标志性事件后，国内外科技巨头持续加大对人工智能的投入。目前，人工智能的主要方向如图像识别、语音识别等等都是通过机器学习的方式，借助强大的计算平台对海量数据进行分析、计算，随着数据量的增长，单机性能已逐渐无法满足计算的需求，需要使用高性能计算(HPC, High Performance Computing)集群来进一步提升计算能力。

HPC集群是将多个计算节点组织在一起协同计算的分布式系统，它一般使用iWARP/RoCE/IB等RDMA(Remote Direct Memory Access)技术来完成计算节点内存间数据的快速交换。如图1所示，RDMA网卡可以从发送节点地址空间中取出数据，直接传送到接收节点的地址空间中，整个交互过程无需内核内存参与，从而大大降低了服务器侧的处理时延。同时，网络作为HPC集群的一部分，任何传输阻滞都会造成计算资源的浪费。为了最大化集群计算能力，通常要求网络在10us内完成RDMA流量的传递。因此，对于支撑HPC的网络来说，时延是影响集群计算性能的首要指标。

在实际部署中，影响网络时延的主要因素有：

图1 RDMA互联架构

硬件时延。网络设备转发、转发跳数以及光纤距离都会影响网络时延，优化方案是尽量使用两级”Fat-Tree”减少网络转发层级，升级网络速率以更高的波特率转发数据，以及部署低时延交换机(最低0.3us)；
网络丢包。当网络由于拥塞造成缓冲区溢出丢包，服务器侧需要重传整个数据段，造成时延的严重恶化。常用解决方案有：通过增加交换机缓存、网络带宽来提高扛拥塞能力，进行应用层算法优化规避incast场景减少网络拥塞点，以及部署流控技术通知源端降速以消除拥塞等。

数据中心网络硬件环境相对固定，依靠升级硬件降低时延的效果非常有限，更多还是通过减少网络拥塞来降低时延。因此对于HPC网络，业界更多聚焦在”无损网络”的研究上，目前较成熟的解决方案有有损网络配合流控协议，和工业无损网络两个方向。

业界常用的网络方案

有损网络及流控协议

以太网采用“尽力而为”的转发方式，每个网元尽力将数据交给下游网元，而不关心对方的转发能力，这样就可能造成下游网元的拥塞丢包，因此，以太网是一种不保证可靠传输的有损网络。数据中心中多采用可靠的TCP协议来传递数据，但以太网RDMA报文多为UDP报文，这就需要部署缓存管理、流控技术减少网络侧丢包。

PFC(Priority Flow Control)是一种基于队列的反压协议，拥塞网元根据通过发送Pause帧通知上游网元降速来防止缓冲区溢出丢包，在单机场景下，PFC可以快速、有效的调节服务器速率来保证网络不丢包，但是在多级网络中，就可能出现线头阻塞(如图2)、不公平降速、PFC风暴等问题，而且当有异常服务器向网络中注入PFC报文时，还可能造成整个网络瘫痪。因此，在数据中心开启PFC，需要通过对Pause帧进行严格的监控、管理，以保证网络的可靠性。

图2 PFC的线头阻塞问题

ECN(Explict Congestion Notification)是基于IP的端到端流控机制。

图3 ECN降速过程

如图3所示，当交换机检测到有端口缓存占用，会在转发时将报文的ECN字段置位，目的端网卡根据报文特征生成通告报文，精确通知源端网卡降速。ECN避免了线头阻塞问题，能够实现流级别的精确降速，但由于其需要网卡侧生成反压报文，响应周期较长，因此通常作为PFC的辅助手段，用来减少网络中PFC的数量，如图4所示，ECN应具有更小的触发阈值，在PFC生效前完成流量的降速。

图4 PFC和ECN的触发时间

除了主流的大缓存、PFC、ECN，业界还提出了基于RDMA字段的HASH、大象流的整形、基于队列长度的HASH算法DRILL、带宽换缓存算法HULL等解决方案，但这些方案大多需要网卡、交换芯片的支持，短期较难规模部署。

工业无损网络

图5 IB流控机制

Infiniband是专为高性能计算、存储设计的互联架构，完整定义了一到七层协议栈，具有低时延、无损转发的特点。如图5，IB网络采用基于”credit”的流控机制，发送者在链路初始化时为每个队列协商初始Credit，标明了能向对端发送的报文数，接受者根据自身的转发能力，实时同时发送者刷新每个队列的Credit，当发送者Credit耗尽，则停止发包。由于网元、网卡都必须得到授权才能发包，因此IB网络不会出现长时间拥塞，是能够保证可靠传输的无损网络。IB提供了15个业务队列来区分流量，不同队列的流量不会出现线头阻塞。同时，IB交换机采用”Cut-through”转发模式，单跳转发时延约0.3us，远低于以太网交换机。

因此，对于小型HPC、存储网络来说，IB是极佳的选择，但IB也存在与以太网不兼容、产品形态单一等问题，较难融入腾讯生产网中。

腾讯AI计算网络

腾讯AI计算网络属于生产网络的一部分，除了需要与其他网络模块通信，还需要对接网管、安全等后台系统，因此只能选择与现网兼容的以太网方案。计算网络的架构随着业务需求的增长经历了多次迭代，从最早支持80个40G节点的HPC v1.0，持续演进至今天支持2000个100G节点的HPC v3.0。

计算网络中的计算节点作为资源池供整个公司各部门共同使用，这就使得网络面临着多业务流量并发拥塞的问题。对于承载单一业务的网络，可以通过应用层算法调度规避网络拥塞，但当多业务共享网络时，就不可避免出现多业务流量的并发拥塞，即使有队列保护、流控机制等手段减少网络丢包，也会由于服务器的降速造成集群计算能力损失。同时，PFC的缺陷也不适宜在多级网络中开启，需要限制其生效范围。因此，我们的设计思路是：

从物理上隔离业务，采用高密设备作为接入设备，尽量将一个部门的节点集中在一个接入设备下，限制跨设备集群的数量；
只在接入设备开启PFC保证快速反压，在全网开启ECN保护跨设备集群；
对于小量跨设备集群，围棋提供足够的网络带宽减少拥塞，并采用大缓存交换机解决ECN反压周期长的问题。

综合高密接入、大缓存、端到端反压等需求，HPCv3.0架构选择了使用BCM DUNE系列芯片的框式交换机作为接入设备。

图6 HPC3.0架构

如图6所示，HPC v3.0为两级CLOS架构，汇聚设备LC、接入设备LA均为BCM DUNE芯片的框式交换机，每台LA最多可接入72台40G/100G服务器，考虑到当前大部分应用的集群规模在10~20个节点，并且未来计算节点性能提升、算法的优化也会进一步限制集群规模的增大，因此72台足以满足单个业务的计算需求。DUNE线卡支持4GB的缓存，能够缓存ms级拥塞流量，同时支持基于VoQ的端到端流控方案(图7)，能够借助PFC实现同机框下服务器的精确降速。虽然框式交换机的转发时延（4us）会大于盒式交换机(1.3us)，但考虑到减少了多级转发、丢包、拥塞带来的时延恶化，并不会影响集群性能。

图7 DUNE芯片端到端流控

从成本上看，虽然框式交换机单端口成本高于盒式交换机，但是由于单LA的节点已可以满足大部分计算需求，跨LA集群需求有限，减少了互联模块，反而比传统盒式接入、一比一收敛比的方案成本更低。

总结

在很长一段时间，网络都不是数据中心性能的瓶颈，基于”大带宽”的网络设计可以满足业务应用需求。但近些年来，服务器技术的快速发展带动了数据中心计算、存储能力的飞速提高，而RoCE、NVME over Fabric等RDMA技术将数据中心的性能瓶颈转移到了网络侧。特别是对于HPC、分布式存储、GPU云、超融合架构这些基于RDMA的新型应用来说，网络时延已经成为制约性能的主要因素。因此，可以预见到，未来数据中心的设计目标会逐步从带宽驱动走向时延驱动，如何构建低时延、无损的大型以太网数据中心，并建立完整的缓存、时延监控机制，会是我们长期探索的目标。

		自动登录	找回密码
密码			立即注册

未来已来，腾讯AI计算网络

相关帖子