微信邦 发表于 2018-5-31 22:51:29

软硬解耦,大道至简

光信息网络已经成为国家重要的信息基础设施,奠定了是智慧城市的发展基础,也支撑着下一代互联网、移动互联网、物联网、云计算和大数据等战略性新兴产业的发展,同时,在智慧安防、智慧医疗、智慧交通,智慧物业、智慧家居、信息消费等众多领域,都有光信息技术的重要应用。“光”与我们的生活息息相关,也是人工智能以及 “数字化、网络化、智能化”制造等新一轮科技革命和产业变革的核心所在。“中国制造2025”、“宽带中国”、“一带一路”等国家战略的提出和实施为光通信领域制造了前所未有发展新机遇,更是为中国光纤光缆企业“走出去”,参与国际竞争提供了有力的政策支撑。
在此背景下,由中国光学工程学承办“第二届光信息与光网络大会”于2018年5月23日在北京亦创国际会展中心召开”。
腾讯受邀作第二届光信息与光网络大会主题演讲,网络平台部架构师李方超从腾讯自身光网络发展过程中遇到的问题与挑战、解决方式及未来发展几个议题展开了讨论,分享了相关的想法。
以下是腾讯主题演讲内容:
随着无线通信的飞速发展,移动互联网也进入了爆发式的增长,随之而来的是流量的爆发式增长,更多的数据中心投入使用,覆盖更广泛的区域并尽可能的靠近最终用户。随着数据中心在超一线城市的规模投产,越来越多的资源问题导致我们无法按照期望去规划建设大规模DC,一线城市的地、水、电等资源问题导致几十万台服务器需要分布在数座相对小规模的DC之中。也正是因为这样,多座DC之间的大量业务交互崔生了metro光网络的发展,原本DC内部的流量由于DC的分布而变为了DC间流量,如此一来给我们光网络也带来了巨大的挑战。

随着交互带宽的飞速增长,传统OTN设备在数据中心内应用的缺点愈加显著。传统OTN设备从体积、散热、能耗及成本方面都对DCI互联应用带来了困扰。安装时需要对现有数据中心机柜进行拆除替换、供电系统也需要改为-48v直流系统,同时传统电交叉设备的复杂度与成本均都居高不下,对CAPEX与OPEX带来了巨大挑战 。
通常,为了降低CAPEX,我们会引入竞争的方式,通过多供应商的竞争来降低硬件采购成本。但是引入多厂家竞争的同时会增加更高的学习成本,导致OPEX有很大提升。不同厂家的设备网管差异性很大,导致运维团队需要熟悉每一个供应商的网管与硬件产品后才能完成日常的运营需求。随着光网络的规模增长,OPEX的增长愈发明显。

盒式波分(pizzabox)替代传统OTN设备 + 集中网管屏蔽多厂家网管差异化的思路成为了过渡期的一个解决方案。Pizzabox盒式波分因为其结构简单、形态及电器规格符合DC设计要求的特点,引入后降低了我们硬件的采购、改造、建设、维护的成本。从管控角度来看,此解法虽降低了运维人员的学习成本,但不同厂家网管的差异性变相转嫁给了开发人员,网管开发人员需要对每一个厂商的网管进行适配工作,这个痛点也是我们正在着手解决的一个重点。

在暂时解了管控难题与硬件成本的难题之后,我们继续在低成本、低管控复杂度的方向进行尝试。我们汇总统计了城域DC之间的距离分布情况,发现近半数的DC间距离在60km以内。我们尝试用QSFP28的Color-Z方案部署在带宽需求可控的园区间(PAM-4单纤容量4T),节省了波分侧的Transponder,进一步降低成本,但目前看到由于容量限制问题,所适用的场景较少。未来若QSFPDD56可提供400G-ZR时,彩光方案可能具备更会有较大的吸引力。对于超过60km或光纤损耗较大的跨段间,采用盒式波分进行覆盖,这样综合两种场景得到成本最优解。

从城域的采光+Pizzabox的尝试中我们发现,其实光层才是管控复杂的问题所在。不同厂家的光层存在着巨大的差异性,这种差异性导致网管建模、工程建设、系统运维等一系列场景的差异和难度。因此我们开始着手寻找解决方案,根据运营、建设的需求与未来彩光、盒子波分的混合组网需求,我们开始设计符合我们需求的OLS系统,即符合低购买成本、低学习成本、低复杂程度、具备智能化、人性化及故障替换便捷化的产品。

我们按照功能逻辑重构了光网络。系统逻辑分为四个单元,波长产生单元(Pizzabox),波长传送单元(光层基础设施),波长调度单元(二期实现WSS+OXC),子波长调度单元(OXC 二期实现)。控制系统采用基于ODL平台开发的SDN控制器,其通过Netconf协议管控全网资源,实现整个系统的傻瓜化、极简化与标准化。我们会根据OC-YANG的模型,在增补部分未包含的模型后输出我们自己的模型给到可以支持的厂商,厂商进行相应适配后即可无差异化的加入SDN控制器的管控逻辑下,实现对运维层面屏蔽硬件差异化的目标。这样,从源头实现了差异化的屏蔽,也无需多次的兼容适配,对于厂家来说由于OC-YANG的大部分模型已经具备,仅需做少量工作即可完成标准化的适配。在此基础上,我们通过Telemetry对设备进行PM数据采集。采集周期从传统设备的15分钟/24小时,提高至秒级。通过算法适配,我们可以实现对故障的预判,例如激光器寿命到期、光缆缓慢劣化至中断(数秒内)等故障的提前动作;可以做到对全网的业务性能的动态检测诊断,相比以往,我们可以减少故障受损的时间。同时整个OLS系统的设计考虑了人性化需求,即光纤防错插、减少连纤数量等设计,最大程度的提高可运维性,降低学习成本。

我们针对开放光层的设计想法是,大道至简。控制器承担更多复杂的事情,但硬件本身采取简洁化设计,整个系统采用自上而下的方式进行数据定义设备,实现数据通道标准化、数据模型标准化、甚至最终的设备形态标准化。减轻日常运维的压力,同时降低整网的故障收敛时间,减少业务受损时长。后续我们会发布详细的关于OLS的相关内容,也会将我们的管控平台及部分硬件逻辑进行开源以回馈社区,欢迎随时关注我们的动态。
页: [1]
查看完整版本: 软硬解耦,大道至简