数据中心光网络智能管控
近年来,全球移动用户数量迅速扩增,数据中心业务快速增长,这些趋势对目前的数据中心互联光网络提出了更大需求。在降低部署与运营成本的同时如何保证系统稳定运行是一个重要挑战。一方面,随着相干器件的发展,器件具备多种调制模式选择,链路与信号的配置逐渐多样化,配合OPC-4的Flex-grid应用,这让弹性光网络(elastic optical networks, EON)成为了可能,链路性能优则采用更高的单波速率,链路性能差则降低单波速率换取更高的传送性能。这就像新能源汽车的续航里程一样,高速行驶续航里程相对越短,匀速行驶里程相对较长,如何平衡这两者的关系是一个平衡经济效益的点。网络控制层能够对频谱资源进行更灵活和精确的配置,但需要一套评估机制来平衡利用率与性能的关系。另一方面,随着光网络的开源解耦,基于开放平台的控制器实现对多厂商设备统一管控,同时集中化控制场景下,海量的PM数据被更高频次的采集上来,网络管理者可以站在更精细化的维度上去审视系统的性能情况,基于在线的实时性能优化成了可能,如何处理并运用这些数据是今后的一个重要课题。
以上提到的光网络发展趋势,使得维持高质量的光传输业务从寿命起始(Beginning of life, BoL)到寿命终止(End of life, EoL)更具挑战性。在大部分情况下,由于光网络规划平台无法准确预估未部署的光信号传输质量(Quality of transmission, QoT),为确保网络正常运行,需要预留较高的设计余量以容忍规划的性能指标与实际结果之间的差异。然而,高余量的设计会导致频谱资源利用不足,从而浪费了一部分传输容量。因此,为了构建一个低余量的光网络来增加网络容量,控制层需要更准确的光网络规划工具(planning tool)在光路部署前来评估传输性能。其中,QoT估计模型是planning tool的核心模块。
本篇推文将首先介绍QoT估计模型中对于光纤信道的建模原理,并对两种经典模型进行简要介绍。在此基础上,我们将简要介绍开发QoT模型的流程及未来针对数据中心光网络智能管控的研究方向。
光纤信道建模原理
通常来说,光信号在传输过程中,会受到多种物理效应的影响从而引入噪声,其中包括偏振效应、光放大器自发辐射(ASE)噪声、收发机噪声、非线性噪声、滤波效应等。前文提到的planning tool可以通过建模这些物理效应,计算相应的噪声,从而评估给定参数的链路的QoT。但设计这样的planning tool存在一定挑战,让我们来看这样一个现象,试着理解下这些难懂的过程:
小明在大街上接打电话,由于周围环境嘈杂,小明开启了免提并调高音量贴在耳朵上听着对方说话,但由于音量太大扬声器爆音,小明更难听明白电话另一头浓重的乡音。于是小明从书包里翻出了降噪耳机戴上后立马可以清晰地听清楚对方,并且连耳机的静默电流声也听得一清二楚,小明努力地识别着对方的口音,费了半天劲也没搞明白对方说的一些词的意思,但在此时小明被身边的人猛得一拉,缓过神来的小明才反应过来原来路人看见小明完全没听到身后汽车的鸣笛声,是路人帮忙提醒了他。
上面这样一个例子在生活中也是大家所常见的,其实这样一个通信过程也夹杂着很多类似的原理:
收发机噪声:手机的扬声器效果差,降噪耳机效果好,其实这就如同不同的收发器自身也会携带不同的噪声,干扰我们听清对方的话。
ASE噪声:就像我们打电话过程中,戴着降噪耳机时,在对方说话的间隔中或多或少会听到一些背景的静默电流声,耳机声音越大这个声音也越大,耳机放大器的自身噪声也会随着音量调大而变大。
滤波器噪声:小明使用降噪耳机,我们可以变相地理解为通过一个降噪滤掉了小明所处环境的背景音,但是降噪耳机也有个不好的地方,大家应该都有体会:所有身边的声音都隔离掉之后反而对于行走中的人带来了危险。当然这个例子只是解释滤波器本身也会带来代价,就像降噪耳机引入安全问题一样,也会引入新的代价。
非线性噪声:就和小明一样,面对一个口音浓重的人在谈话中说到了一个俚语,你很难弄清他说的这个词是什么含义,也很难通过前后语境去推测这个词到底是什么,这样的难以判断与预测就和非线性噪声一样,没有公式或算法去计算非线性效应的不确定性,这给通信系统带来了很大的挑战。
那么QoT充当一个什么角色
QoT充当一个量化沟通难度的工具,即在小明接通电话前我们可以告诉他,小明你的汉语水平结合当前的场景,你可能无法理解对方的话。当然这个例子可能并不十分恰当,实际上我们的QoT遇到的问题就像是小明所遇到的问题,不同的是planning tool不光要能准确地识别和理解对方的乡音与俚语,还要评估环境噪声有多大,例如这款耳机的降噪系数如何,音质是否优异,对方的口音大概是哪里人等等,即把每一个所经环节的信息拿到并给出一个评估:在环境噪音不高于多少分贝的情况下,使用这个耳机可以让汉语水平8级的人听懂来自浙江温州的他所打来的电话。QoT就是这样一个评估通信系统代价的工具。
通过小明的例子理解这一过程后,我们来看看相对专业一些的分析,说明了我们做这样一个工具的几方面难点:
1.各项物理效应自身的建模存在复杂性
前文提到的各项物理效应产生的机制不完全相同,所对应的建模都具有一定的挑战性。其中,光纤非线性噪声在高速光纤通信系统中是最为复杂也最难定量计算的噪声。这是由于非线性噪声由多种复杂的光学物理效应相互作用产生,如色散、自相位调制、交叉相位调制、四波混频、受激散射等。非线性噪声可以通过非线性薛定谔方程来进行计算。由于这个方程在一般情况下没有解析解,因此非线性噪声的计算成为了链路QoT估计模型中的技术关键点。
图中所示的这些噪声作用于信号的时、频域,其大小与信号配置、波道分布、光纤类型都密切相关。对于这些噪声的单独建模存在一定的复杂性,但都有可行的方案。目前常用的两种QoT评估框架:高精度的基于分步傅里叶的估计模型(split-step Fourier method,SSFM)和快速的基于高斯噪声假设的估计模型(Gaussian noise model, GN model),都可以在假设各项噪声为加性噪声的情况下,给出链路中噪声的评估总和。目前关于各项噪声建模的研究很多,但仍然存在改进的空间,尤其是针对灵活弹性光网络的应用场景。
2.噪声之间互相影响,增加了建模的复杂性
各项噪声除了自身建模的复杂性之外,由于彼此间的相互所用,还会进一步增加信道精确建模的难度。例如,在GN模型计算非线性噪声的基础上,在噪声来源中加入滤波效应,会造成非线性噪声的估计准确性下降。这是因为滤波效应使得信号频谱不再完全符合GN模型计算非线性噪声时做出的信号频谱为方形分布的假设。也就是说,简单的逐一实现各类噪声并叠加不能精准地建模各类噪声共同作用的效果。
3.理论模型的部署存在着复杂性
将理论模型以能够工程化的编程语言实现也存在一定的复杂性。我们的工作内容就是基于目前常用的两种QoT评估框架(SSFM模型和GN模型),首先实现了传输性能估计模型的python版本。在新信号部署前,可以使用精度较高的SSFM模型准确预估其性能。对已部署的信号进行调整时,可以使用速度较快的GN模型进行快速灵活的配置。在此基础上,我们将理论模型进行了进一步的拓展扩充,使之更适配实际的链路情况,包括链路中WSS滤波效应的多样性和EDFA增益谱噪声谱的非一致性。
我们怎么做? 讲述完困难,我们是如何做这样一个模型的,早在2019年,我们启动TOOP的时候,我们意识到planning tool这样一个产品是任何一家波分供应商的核心组件,用它你可以了解一个供应商的全部类型板卡的性能情况,因此很难有任何厂商会愿意分享他们的工具,也不会售卖,且对于他们自己内部也是license严格把控。即拿到一个供应商的EPT工具即掌握了这家的核心器件性能机密,因此我们需要有自己的评估系统来实现对通信系统的先验计算配置与后验优化性能的需求。我们选择与上交大的团队合作,从建模开始做一个可用的QoT功能模块来帮助我们的开放光网络部署与运营。
模型简要介绍 SSFM模型完整模拟了整个链路中信号从发端产生到收端被接收处理的过程。它将光纤分成小段,假设每一小段中信号的色散(线性)和非线性噪声可以分开计算;线性效应在时域进行计算,而非线性效应则在频域进行计算,这使得模型中存在大量的FFT和IFFT,导致了运算速度较慢。在实际应用中,可以通过设计变步长的分步傅里叶算法减少时频域变换的次数。同时,通过GPU的辅助,SSFM的计算速度也可以进一步提升。
GN模型则根据假设信号和噪声都遵循高斯分布,通过数值运算得到非线性噪声的噪声功率谱密度。由于模型计算中不产生符号序列,GN模型的计算速度在ms级,能够快速给出链路QoT估计结果。运算速度优势使得GN模型可以广泛用于对链路QoT估计有快速需求的场景。在GN模型的基础上,可以将GN模型拓展为enhanced GN(EGN)模型,得到更精确的链路QoT估计结果。另外,还可以将GN模型的结果和其他链路特征送入神经网络进行训练,进一步提升模型的精度。
模型开发流程 首先,我们使用python语言对两种模型进行开发,并完成封装与集成。为了能够给用户提供更方便的模型选择和参数输入,我们将模型输入输出开放成RESTful接口,以json数据形式进行读取和写入。
目前可以输入的模型参数包括光纤相关参数(如长度、损耗等),器件相关参数(如EDFA,WSS等)和信号相关参数(如调制格式等),并可以根据需求选择高精度模型或快速模型来输出收端信号的SNR。我们将在后续工作中将输出扩展到BER、OSNR、Q值等指标。
另外,我们在两个模型中都加入了对滤波噪声的估计。对于SSFM模型,它在发端已经生成了符号序列,只需要在光纤传输过程中添加滤波功能。对于GN模型,考虑到原始模型仅计算非线性噪声,无法直接计算滤波噪声,因此需要对整个模型进行重构。我们利用半仿真半数值解的方案来实现:模拟一个AWGN信道,在发端产生符号序列,将原有GN模型上得到的非线性噪声和ASE噪声视为信道中的白噪声,加在符号序列上后经过WSS,在收端获得最终的SNR。由于加入了符号传输仿真,这会使得GN模型的运算速度稍有下降,但仍远快于SSFM模型。
后续将对模型进行更新迭代,使模型能够适应带宽灵活可调、调制格式灵活可变、路由自由定义的网络场景,并进一步对EDFA等器件进行精准建模,使之能够更符合实际中的链路情况。
未来的研究计划 本阶段完成了对物理层光网络性能估计算法的初步部署。随着弹性光网络的发展,我们将进一步设计新网络场景中的性能估计模型,并考虑开源硬件的趋势,对不同型号收发机及光器件进行精准地适配。同时,目前的性能估计主要基于静态模型,随着网络配置及信道的变化,下一代模型将以智能监测为核心,从实时链路的监测结果出发,使静态模型转化为动态模型,进一步提升网络性能,构建智能化、数字化的光网络管控系统。基于上述的链路QoT估计模型,我们未来将展开对光网络智能管控算法的研究。其中的重点包括光功率优化:实现更有效的入纤光功率配置来进一步提升网络容量。还可以根据精确的链路QoT相关数据分析,进行光网络中软故障的管理,如检测和定位等。这些研究都可以在目前工作的基础上进行,最终目标是实现更智能和动态的光网络管控。
QoT给我们带来的意义和价值
QoT的价值一方面是为我们在开通系统前提供了先验机制,输出对应配置,但更大的价值在于它赋予了TOOP控制器在线诊断能力。当线路发生劣化时,根据telemetry所得到的PM数据情况,判断劣化区间与劣化事件,通过QoT组件计算线路性能,得到最优配置下发并调节确保系统可以正常运行。从采集、分析、执行,光层设备与电层设备如同传感器一样时刻反馈数据,光功率、Pre-fec、Q值、SOP等参数作为评估参数进行系统性能评估,并根据计算结果修正配置,这样一个反馈循让系统维持在一个健康状态。如同开篇所讲到的,长久以来光网络在设计时都预留很大的余量,包括工程余量,系统老化余量,线路劣化余量等等。过多的预留带来的是成本问题,通过QoT组件精准的性能分析可以在满足系统性能的前提下预留合理的余量,最大程度的利用频谱资源,平衡成本与稳定性的关系。曾经的光网络设备专业且复杂,庞大的子框及联关系,复杂的分布式功率调节算法与自动化的缺失让网络的运营十分繁冗。TOOP结合QoT组件实现自动化并最终像智慧管控进行演进,这就是QoT带给我们的价值。
上海交通大学课题组介绍 本课题组主要研究方向为数据中心光网络、核心骨干网光通信和B5G/6G光应用技术,研究内容涉及光通信系统架构、光网络智能管控、光数字信号处理和光无线融合等。主持科技部重点专项(课题负责人)和自然科学基金。在国际一流期刊和会议上发表论文140余篇,共申请美国专利10项,在OFC和ECOC等国际会议上作特邀报告20余次。担任Optics Express等国际期刊副编辑。担任OFC等国际会议的技术委员会主席(OFC S4和OSA SPPCom等)和委员。获2020年OFC康宁杰出学生论文奖第一名,2019年华为优秀合作奖等。
感谢上海交通大学诸葛群碧副教授课题组。参与本课题的学生包括:刘晓敏、高若萱、刘蕾、伦华志、蔡萌、邱淇智。
|