学习等计算密集型服务的繁荣,也极大地提高了对数据计算、存储执行效率与资源利用率的要求。在传统技术手段中,往往通过增加数据中心(DC)空间来容纳更多的机架和服务器,进而达到增加数据处理能力的目的。然而,随着业务需求的增加,线性扩容系统的方式使数据中心正在逼近能耗极限,目前需要寻找新的技术手段来最大限度地提高计算能力和效率。在节点算力与使用效率的提升方面,信息技术(IT)领域的研究人员提出诸如硬件解耦、与高性能计算体系融合等多方面的解决方案,在本文中不再赘述,后续部分着重讨论数据中心互连网络(DCN)方面的进展与目前面临的挑战。
在DC带宽密度提升方面,在高速率、低功耗需求的驱动下,相同容积的光模块需要具备更大的数据传输量,多通道、光子集成与混合集成技术可以将光组件做得很紧凑,顺应光模块小型化趋势,方便使用成熟自动化集成电路(IC)封装工艺,有利于量产,是未来数据中心用光模块提升带宽密度的行之有效的技术手段。
另一方面,连接无数计算节点的互连网络承担了海量数据的传输与交换功能,不再只是一个流量转发的、仅需追求稳定的平台,它逐渐成为一个重要的生产环节。上述业务的演进趋势对数据通信中的互连网络,在时延和吞吐量方面提出了更高的需求,使数据中心网络业务承载能力的提升逐渐成为一件亟待解决的事情。本文中,我们通过分析目前DCN在应对突发业务与带宽灵活调度等方面面临的一些挑战,进一步探讨光交换技术在帮助DCN应对上述挑战中可能起到的积极作用,最后总结了光电混合DCN可行性及其仍需解决的一些技术难题。
1 数据中心互连网络面临的主要挑战
目前DC通过电交换设备形成各种形态的互连拓扑,把大量通用服务器互连。随着DC规模的急速增加以及服务器性能的提升,近年来的接入路由器和核心路由器端口速率需求将会随之达到40 Gbit/s和400 Gbit/s。然而如图1所示,电交换机的能效随着交换容量的增大而无法继续提升[1],这使得数据中心在能耗、带宽提供这两方面遇到瓶颈。DC亟须解决能耗问题带来的扩容瓶颈,才能以合理的功耗继续提升网络带宽。有研究表明DC中99%的链路利用率不足10%[2],同时欧盟FP7框架下开展的面向光通信的数据速率和功率感知的自适应收发器(ADDAPT)项目[3]的研究显示,某些DC中链路无效数据传输时间高达90%,IBM研究人员通过实验测试指出光模块具有快速启动与突发接收功能时能耗可节省85%。因此,如何提高DC系统能效,需要突破现有框架,从DC业务特点出发,探索新的思路。
DC承载业务类型多样,流量分布不均且具有很强的突发性[4],现有DCN流量工程机制复杂,无法快速应对流量的波动。一些热点机架承载着数据中心中绝大部分的流量[4],造成热点机架间的路径出现拥塞,端到端数据延时加大,而其他位置的网络资源却处于闲置状态。互联网协议(IP)层带宽调度技术又过于复杂,无法满足DC业务时效性和网络运维灵活性的需求。上述情况造成了互连带宽的浪费,限制了整个数据中心的吞吐量与业务承载能力。
近年来以Facebook等互联网巨头为代表的数据中心用户希望通过硬件解耦 [5],即在硬件层将同类资源聚合为资源池,如中央处理器(CPU)池、内存(Memory)池、存儲(Storage)池,然后根据应用的需求分配具备相应特性的资源组合,来提高DC中资源的利用率和灵活性,同时降低资本性支出(CAPEX)和运营成本(OPEX)。资源池间互连网络的带宽提供能力(大瞬时带宽、低延时、高动态)是决定资源解耦范围的关键因素之一。因此,全局资源调度与高效网络重构能力也是硬件解耦等数据中心技术演进趋势对DCN提出的新要求。
为了应对上述挑战,DC互连网络亟须在能效提升和带宽资源灵活调度方面寻找新的解决思路。由于光交换技术具有速率透明、低功耗、可重配置等优势,基于光交换的互连网络被认为是一种解决DC面临的问题的有效方法,以满足DC日益增长的高带宽、低延迟和高能效等方面的需求。
2 光交换相关技术的发展现状与挑战
2.1 光交换矩阵技术发展现状
光交换矩阵可以实现光束在时间、空间、波长等维度上的切换,是光通信、光计算机、光信息处理等光信息系统的关键器件。通常来说,光交换矩阵的性能由开关单元、切换机制和互连结构等多方面因素决定。表1中,我们对目前具备商用可能性的光交换矩阵的相关性能进行了分析比较。其中,基于微机电系统(MEMS)和波束控制(Beam-Steering)的开关矩阵已经达到商用成熟阶段,规模已经可以达到数百端口;纳秒级切换时间的光交换矩阵规模仍较小,依赖于模块多级级联,因此插损偏高。在近年来的光交换矩阵的研究中,研究人员在驱动集成、片上放大、偏振不敏感方面做了大量的研究,结果表明光交换矩阵整体向着高可靠、低损耗、小功耗、小体积以及大规模方向发展。同时,近几年光交换矩阵在电信领域(光传送网(OTN)建设中需要构建大量的可重构型光分插复用器(ROADM)、光交叉连接(OXC)节点,光交换矩阵是搭建这些节点的基础模块)、网络测试领域有大规模应用的趋势。
2.2 光收发节点技术
在传统的点对点光纤通信或光电路交换(OCS)系统中,光接收机一般接收另外一个固定节点发送的连续模式光信号,并从中检测出电信号。使用快速光交换的收发系统,是因为光信号的非连续性:除了满足传统光接收机所要求的高灵敏度外,还要有较大的动态范围和快速的响应能力,即突发模式接收技术。光突发模式接收机主要由信号整形、突发同步和数据恢复3大部分组成。表2中,我们对传统接收机与突发模式接收机相关性能要求进行了比较。其中,对于突发模式信号,两相邻突发分组信号间有相位突变。在这种情况下,要避免使用传统的交流耦合方式。因光接收机在交流耦合之后,要对信号进一步放大,再进行整形和判别输出;而突发信号的不均衡,其直流成分(均值)发生漂移,要影响到后面放大器的直流工作点,使其不能稳定工作。此外,判决电路对幅度不均衡信号进行判决时,要么会出现小信号的丢失,要么会出现大信号的脉宽失真。上述原因都是研制高速突发接收模块的需要解决的技术难题。
目前,商用的突发模式光接收机主要应用在各种各样的无源光网络(PON)中,支持1.25 Gbit/s以及10 Gbit/s的速率。电子设备工程(EEE)下一代以太网无源光网络(NG-EPON)正致力于25 Gbit/s单波长和50 Gbit/s双波长的解决方案。这与最近数据中心传输速率从10 Gbit/s迅速转变为25 Gbit/s的趋势是一致的[6]。近来,针对高速光突发模式接收机的研究也取得了一些进展。IBM在国际晶体管电路讨论会(ISSCC)2015上报道了突发模式时钟和数据恢复(BM-CDR)以25 Gbit/s的速率在18.5 ns锁定时间下的成功演示实验[7]。IBM和瑞士洛桑联邦理工学院(EPFL)在国际固态电路(ISSCC) 2018上报道了使突发模式光接收机(BM-Optical RX)从10 Gbit/s提高到56 Gbit/s的实验,该实验演示56 Gbit/s BM-Optical RX通过链接协议完成384UI(6.8 ns)中的唤醒和CDR锁定[8]。在2018年光纤通信展览会及研讨会(OFC)上,IBM报道了一种由850 nm光电二极管(PD)阵列组成的、以低成本垂直腔面发射激光器(VCSEL)为基础的、14 nm 互补金属氧化物(CMOS)的4×40 Gbit/s 2 pJ/bit光接收器(RX)。该RX可以实现低至8 ns的Power-on和CDR-Lock 时间[9]。综上所述,高速光突发模式接收机的相关技术研究也得到了显著进步,有望支撑未来100 G以内光突发接收模块的相关研制。
2.3 全光交换网络相关技术
依赖于不同维度的光开关器件的研究进展,基于光交换的DCN近年来得到广泛关注,包括IBM、Google在内的大量企业与研究机构在数据中心内也进行了大量的尝试与实验。表3和表4为目前业界主要的主要光互连方案在技术特性、成熟度等方面的比较。其中,开放式可插拔规范(OPS)、光突发交换技术(OBS)需要复杂的冲突避免机制,需要在光缓存器件、光逻辑器件等方面进行技术突破;光电路交换(OCS)相关技术的成熟度较高,光时隙交换次之,光时隙交换系统依赖于快速光交换器件;收发模块方面,除OCS外,其他交换机制的实现均依赖于突发模式收发技术。综上所述,光时分复用(OTDM)系统在数据延时、控制时效性等方面有一定的优势,混合波分复用(WDM)的OTDM系统可以作为一种实现数据中心内动态光互连拓扑重构的可行方案;而OCS机制适合于可以提前预知流量变化的场景。
3 光电混合DCN发展趋势
大量研究显示,全光交换技术在特定场景下比电交换技术在能效等方面有一定的优势,但无法全面替代电交换技术细粒度的业务调度能力,所以如何设计光电混合的DCN成为目前业界所研究的重点。需要充分发挥各自的一些优势,使其能够适应DC内多样、突发的业务流量。
3.1 数据中心内业务特征
数据中心网络业务的第1个特征是南北向流量与东西向流量的“二八定律”。在数据中心发展的早期,出于用户对服务器上大容量存储数据的访问需求,大量流量流向机架外部,然而随着互联网和云产业的迅猛发展,现阶段的数据中心中,这种南北向流量已降低至20%左右[10]。预计到2021年,94%的工作负载和计算实例将由云数据中心处理;传统数据中心处理的比例仅为6%[11]。在新兴的云数据中心中,应用和其所依赖的组件大多部署在同一个机架内,网络流量具有明显的特征:75%以上的流量停留在机架内部,核心链路利用率低于25%[12]。
数据中心网络的第2个特征是大象流与老鼠流的混合。一个数据中心通常需要承载各种各样的业务,为用户提供包括网页搜索、直播视频、基于IP的语音传输(VoIP)、数据存储、资源下载、即时通信等丰富多彩的云服务。这些应用程序产生的流量具有不同的特征,可以根据其传输数据量的多少分为大象流和老鼠流。大象流通常产生自带宽敏感型业务,例如数据库同步、存储备份、数据分析等需要占用大带宽的业务;老鼠流通常产生自时延敏感型业务,例如社交网络、搜索引擎等实时性业务。相关研究表明,传输数据量不足1 MB的突发性老鼠流占数据中心网络流数量的90%以上,而传输数据量不超过100 MB的老鼠流占到数据中心网络流数量的98%左右[13]。传输数据量大于100 MB的大象流的数量虽然比较少,却承载了网络中90%以上的数据量,即90%以上的流量被认为是老鼠流,而90%以上的数据量在大象流中。
数据中心网络的第3个特征是流量分布的突发性和不均匀性。局部的hot spots承载了大量的流量,其他地方闲置的链路造成了网络资源的浪费。有相关研究指出,数据中心网络内86%的链路会因为突发的大象流而产生超过10 s的网络拥塞[14]。
上述DC内的流量特征决定了DCN流量调度问题的复杂性以及传统互联网解决方案在应对上述一些问题时也必将会面临着大量的不适应性。
3.2 基于通信模式的拓扑重构
针对上述流量特征,电交换网络适合针对老鼠流进行灵活分发,而光交换网络提供了可重配置的快速光通道,为突发的大象流业务按需提供实时的高速连接。为了达到上述目的,需要在数据中心中部署知识平面、智能控制平面来实现流量的高效感知和光电混合网络的实时控制。
图2是基于AI流量分析的光电混合DCN重构体系。在该体系中,首先通过知识平面对数据中心业务进行感知与分析,可以充分利用sFlow、NetFlow等基于报文随机采样的网络流量监测控制技术。这些技术可以实时完整地提供全网范围的数据链路层、网络层和传输层的网络流量信息,进而对网络流量进行实时的分析与分类,从而与网络控制平面形成联动关系,然后再根据业务需求实时改变网络拓扑,在数据面实现相应流量的高效汇聚以及转发。
同时,在数据平面拓扑构造方面,通过电交换设备和点到点光链路构成DCN基础拓扑,使其具备基本的连通性,再通过光交换矩阵连接必要的节点,如接入层机架顶端(ToR)或汇聚层ToR构成可重构的高速互连拓扑。
3.3 低延时或确定性延时控制技术
为了满足光电混合网络对动态业务实时调度的要求,需要极大提升现有网络控制平面的时效性,包括有效降低控制软件的响应时间及其抖动,降低控制消息传递时延及其抖动。传统网络控制系统(如软件定义网络控制器)响应时间随网络负载差异较大,业务响应时延基本保持在百毫秒到秒级;控制消息传递的时延与抖动也无法有效控制。如果实时网络控制系统的时延抖动过大,会引起网络协议振荡,最终导致网络稳定性变差。为了提升控制效率,软件加速技术、国际互联网工程任务组(IETF)(DetNet)[15]和IEEE 802.1時间敏感网络(TSN)等确定性网络低延时传输技术、控制系统与收发节点的高精度时间同步技术都将是提升控制系统时效性的关键手段。
4 结束语
随着移动互联网业务的迅猛发展与普遍接入,用户使用各种互联网服务的行为产生了大量的数据。以5G为代表的通信网络的快速推广使得更高速的数据传输成为可能,而数据中心作为存储、处理和分析这些数据的重要基础设施,其节点算力逐渐增强,规模逐渐增大,要求数据中心互连网络具备提供高带宽、低能效、可应对突发数据的承载能力。结合不同维度的光交换技术的光电混合数据中心互连网络将成为提升目前数据中心带宽调度灵活性的关键技术手段,该技术亟待在流量分析、智能与高效控制多方面取得突破。