第3章 全光自动驾驶网络系统架构 3.1全光自动驾驶网络业界趋势 目前,国际上多个组织都在开展自动驾驶网络的研究。电信管理论坛(Telecom Management Forum,TM Forum)的自治网络项目(Autonomous Networks Project,AN Project)定义了自动驾驶网络的总体框架和分级标准。欧洲电信标准协会(European Telecommunication Standards Institute,ETSI)从面向资源的业务(Resource Facing Service,RFS)角度,研究和标准化如何实现端到端网络和业务的自动化管理,以及人工智能在自动驾驶网络中的应用。TM Forum、ETSI和其他相关的标准组织,还成立了跨标准组织的协同机制,共同研究和标准化自动驾驶网络技术,推动自动驾驶网络解决方案在无线网络、数据通信网络、光传送网络等不同领域的落地应用。 1. TM Forum的自治网络项目 自治网络项目于2019年7月成立,旨在面向垂直行业,定义全自动化的零等待、零接触、零故障(Zero Wait,Zero Touch,Zero Trouble)的电信网络,以支撑电信内部用户实现自配置、自修复、自优化、自演进的电信网络基础设施。该项目结合极简网络架构、自治域、自动化智能商业/网络运营等技术,实现数字化业务的闭环控制,提供最佳用户体验,实现全生命周期运营自动化/自治化,最大化资源利用率。AN Project的主要工作如下所述。 (1) 自治网络技术白皮书: 阐述自治网络的功能架构、应用场景和自治网络分级。 (2) 商业架构(Business Architecture): 定义自治网络的用户故事、商业需求和框架。 (3) 技术架构(Technical Architecture): 定义自治网络的技术架构和自动驾驶网络分级,以及网络操作层和商业操作层的跨领域开放接口。 (4) PoC(Proof of Concept)测试: 典型场景定义、解决方案设计和样机验证。 该项目根据网络的执行、感知、决策和意图驱动的能力,定义了如下自动驾驶分级标准。 (1) L0手工运维: 具备辅助监控能力,所有动态任务都依赖人执行。 (2) L1辅助运维: 系统基于已知规则重复性地执行某一子任务,提高重复性工作的执行效率。 (3) L2部分自治网络: 系统可基于确定的外部环境,对特定单元实现闭环运维,降低对人员经验和技能的要求。 (4) L3有条件自治网络: 在L2的能力基础上,系统可以实时感知环境变化,在特定领域内基于外部环境动态优化调整,实现基于意图的闭环管理。 (5) L4高度自治网络: 在L3的能力基础上,系统能够在更复杂的跨域环境中,面向业务和客户体验驱动网络的预测性或主动性闭环管理,早于客户投诉解决问题,减少业务中断和对客户的影响,大幅提升客户满意度。 (6) L5完全自治网络: 这是电信网络发展的终极目标,系统具备跨多业务、跨领域的全生命周期的闭环自动化能力,真正实现无人驾驶。 0 0 2. ETSI自动驾驶网络相关标准 1) ISG ZSM ISG ZSM(Zero Touch Network & Service Management)于2018年1月成立,其标准化目标是端到端网络及服务的自动化管理(如交付、部署、配置、维护和优化),理想情况下100%自动执行从交付到部署的业务流程和任务。该工作组主要研究面向未来网络的管理架构、接口以及自动化闭环控制,实现横向端到端(跨域)和纵向端到端(跨层)的全自动化管理。 2) ISG ENI ISG ENI(Experiential Networked Intelligence)于2017年2月成立。ISG ENI定义了基于“感知适应决策执行”控制模型的认知网络管理架构,通过人工智能技术提高运营商在网络部署和操作方面的体验,其核心理念是网络感知分析、数据驱动决策、基于AI的闭环控制。该工作组的主要工作包括分析人工智能技术在网络中的应用场景和技术需求、设计ENI架构、定义智能网分级并提出基于意图感知(Intent Aware)的自治网络标准等。 3) ISG F5G ISG F5G于2019年12月成立,旨在定义第五代固定网络的代际特征,研究和标准化F5G业务场景、业务质量和用户体验,定义网络架构及技术全景视图。其给出的F5G三大关键特征为全光连接、超高带宽和极致体验,相比于F4G可实现带宽的10倍提升、连接数的10倍增长以及时延降低为1/10,推动从光纤到户迈向光联万物。 ISG F5G已立项F5G端到端管控项目,该项目将基于TM Forum的自治网络框架,以及ETSI的ZSM和ENI技术架构,标准化F5G下的固定网络端到端智能管控技术,涵盖全光网下的自动驾驶网络标准。相关标准制定工作正在启动中。 3.2全光自动驾驶网络系统架构介绍 电信网络要想达到L5级,实现可自我演进和自我优化的终极目标,依赖网络自我认知、人的知识与经验提取等方面的理论和关键技术突破,仍需较长的探索周期,且存在商业化的不确定性。考虑当前的技术成熟度,可以L4级作为自动驾驶网络未来架构的阶段性目标,有节奏地引入正在逐步成熟的人工智能、知识图谱等新技术、新工具和新方法,对网络设备、运维系统,甚至商业运营进行全方位的重构与优化。 从技术视角看,L4级自动驾驶网络目标架构应具备如下四个基本特征。 (1) 特征1: 网络知识和专家知识数字化,从被动的人工运维,走向预测性的智能运维。 当前运营商网络主要是以专家人工运维模式为主,网络发生问题后,由客户投诉驱动,专家通过OSS、网管或工具辅助进行人工分析、决策和闭环,难以满足未来海量连接、网络规模不断增长、业务云化的随需开通等要求,需要进行如下三方面能力提升。 ① 预测性问题感知能力: 基于对海量网络数据的深度分析,主动分析网络状态,甚至提前预测网络异常或问题,并且及时提供问题的根因分析,找到问题根因,先于客户感知问题在投诉之前解决。 ② 网络自主决策能力: 在一定条件下,例如确保在运维人员的监管下,针对特定的组网与业务场景,由网络进行自主决策,实现对复杂和不确定问题的快速响应与闭环管理,提升网络决策效率。 ③ 网络自动执行能力: 通过流程自动化,替代专家工作任务中低效、重复性的人工操作部分。使专家由过去“在流程中(In the Loop)”转变成“在流程之上(On the Loop)”,聚焦于更为关键的管理环节和流程、规则的设计工作。 网络数字化和专家知识数字化,则是实现上述能力提升的关键前提和基础。 首先,网络数字化是实现网络自动化执行能力的前提之一,为网络状态感知、分析,以及AI训练与推理活动提供网络数据,包括网络资源、业务数据,也包括运行状态、故障、日志等动态实时数据。过去30年中,围绕电信网络的数字化工作一直在不断推进。随着网络功能演进和采用AI新技术,原有网络数字化模型需要针对业务和场景的变化,进一步扩充与修订。一方面需加入时空属性,从时间和空间两个维度增强描述网络历史、现状和未来的能力; 另一方面,无论是网络层还是设备层的分层感知和决策闭环过程中,都需要增加数据量规模及确保数据的实时性。 其次,专家知识数字化对提升网络自动化执行能力同样十分重要。运营商和设备提供商在多年的网络建设运维过程中,积累了大量管理规则、排障方法等专家知识和经验,以多种形态散布在设备运维手册、网络运维规范等不同的智力资源中。网络的自动化闭环过程,需要将这些分散的、供人理解的知识注入计算机程序中,形成集中的、供计算机理解与使用的知识库。结合AI技术,计算机可以更快、更好地使用这些知识经验在网络自动化分析、决策、闭环中发挥关键作用。当前,将知识图谱等方法和技术拓展至电信网络,实现网络故障智能识别和闭环处理等场景的应用,已取得较好成果。 AI技术成熟与商业化是个渐进而长期的过程,电信网络中AI被用来提升网络智能化感知能力,或者通过智能化推荐提升专家人工决策的效率和质量(L2/L3级),相关研究还处于初始的阶段。随着网络认知能力、知识提取等基础理论和技术的不断突破,AI会进一步针对特定网络领域进行自我优化和调整,实现有条件的闭环自治(L3级),也可以针对多网络实现预测式主动闭环自治(L4级),高效率的自主决策将会越来越多地替代人工决策。 (2) 特征2: 极简架构的网络基础设施,网元走向智能化。 极简架构的网络基础设施包括两层含义。一是组网和设备自身要做减法,覆盖设备形态、部署、协议、架构四个层面。 ① 设备简化(Lightweight Equipment): 设备一体化、刀片化、高密化、模块化。 ② 弹性部署(Elastic Implementation): 站点云化、自动部署、预连接、预安装、异构兼容。 ③ 协议归一(Normalized Protocol): 协议精简,逐步实现统一。 ④ 架构创新(Agile Architecture): 架构解耦、扁平化,多网合一、资源池化。 二是网元能力要做加法,通过持续增加智能化和数字化发展能力,对资源、业务及周边环境的感知能力越来越强,具备多维实时感知能力,包括业务流、资源、拓扑状态、运维事件、自身能耗等。最后,网元内置AI算子和AI推理单元支持AI推理功能,网元变得越来越敏捷,单个设备也能具备一定的智能自主感知、决策与闭环能力。 (3) 特征3: 分层的单域自治和跨域协同,网络走向在线实时闭环。 随着电信技术演进,网络设备的可调节参数越来越多,支持的业务场景和组合越来越广泛,多厂家、多技术、多软硬件版本共存已经成为常态,光网络架构层、域扩展的特点和要求,显著增加了网络运维的复杂度与成本。从网络运维角度来看,亟须解决以下两个问题。 ① 如何通过分而治之的策略,将复杂网络分解为多个自治域,通过单域自治和跨域协同的思路实现复杂和超大网络的自治闭环。网络自治域是运营商依据其业务特点、网络技术、维护模式等差异性,划分的一组智能化网络基础设施及其管理控制系统的组合。单个自治域可自主完成数据采集、分析、控制、优化的完整闭环过程,并对外提供意图化API接口,简化网络操作,屏蔽内部实现细节及差异。简而言之,单域自治的网络将作为一个在线实时闭环系统运行,会感知自身状态,根据外部用户、应用、运维流程和环境的动态变化,智能化推荐可能的组网选项、配置模型与策略等,进行主动或预防性的调整优化,其自主水平也越来越高,网络走向在线实时闭环。 ② 如何面向运营商的业务生产、运维流程提供灵活设计与编排的运维平台,让传统僵化、被动的人工运维转变为数据驱动的智能运维(Artificial Intelligence in IT Operations,AIOps)。对跨域协同而言,网络自治域的开放可编程是基础前提,网络自治域聚焦抽象网络技术,通过提供面向场景的意图化API接口,实现业务与网络资源解耦,允许面向业务场景、组网方案、运维流程和知识进行灵活定义、全局编排和数据训练等,支撑运维流程的持续再造和优化。同时,运营商和设备提供商在网络建设、运维过程中积累的专家知识和经验作为一种智力资源,需要注入计算机内形成知识库,在机器协助下发挥更大的价值。未来会出现“网络策略师”“编排工程师”“数据分析师”等新型运维人才岗位,人仍将在意图设计、异常处理、重要决策上起到关键性作用。 (4) 特征4: 统一的云端AI训练、知识管理和运维设计平台,支持电信网络迭代演进。 未来的运营商网络,需要从网元、网络、云端三层入手,建立相互协同的AI能力。 ① 网元AI: 聚焦网络数据的实时采集和过滤,并实现网元节点内部的快速闭环。网元AI是支撑电信网络能持续动态迭代和智能升级的基础。 ② 网络AI: 面向网络分层自治提供在线AI推理和本地知识库支持,是网络智能化具体实施的关键。 ③ 云端AI: 一方面作为统一和集中化AI设计和开发平台,既是运营商持续开展AI训练和知识提取的敏捷开发工具,又是推动网络知识和专家知识体现数字化建构的源头; 另一方面,云端AI还提供运营商关键的知识发布和共享能力,是“知识中心”和“图书馆”,减少重复的开发和训练过程。 为保证三层AI彼此之间的高效协同,首先应当使用一致的AI规范,包括AI模型规范、知识规范和推理过程规范等,确保AI模型、知识的合理流动和共享。此外,运营商网络按子网/按领域运维、业务易变动等特点,也决定了运营商网络AI三层架构需具备如下独特能力。 ① AI模型的泛化和局点适应性能力: 运营商不同子网的业务形态、组网方式、运维规则等存在差异,网络数据的分布也呈现多样性,依据一个子网数据训练得到的AI模型,向其他子网推广使用时,可能存在泛化和局点适应性难题,这就要求在AI推理部件中,必须提供相对完善的AI模型泛化和本地再优化的能力。 ② AI模型的持续演进能力: 运营商网络和业务的变更与升级,可能会要求AI模型、网络知识同步更新升级,这要求云端AI、网络AI和网元AI须协同,支持对AI模型、网络知识的持续演进升级。例如,利用AI进行网络故障诊断时,如果设备新版本的告警定义关系发生较大变更,或站点组网增加蓄电池,故障传播关系可能发生变化,这可能会要求AI模型中的聚类算法和故障传播规则等同步升级。 面向未来的自动驾驶网络变革中,AI将无处不在,贯穿整个端到端(E2E)网络全生命周期的改造和演进过程。网络数字化和专家知识数字化、极简架构的基础设施以及网络分层自治,都是实现这一目标的核心和基础。 综上所述,电信网络要想实现自动驾驶网络L4的架构目标,需要一个清晰的、可供产业参考、形成共识的目标架构来指导实际应用。基于图31所示的全光自动驾驶网络解决方案架构,运营商可以自上而下系统性地评估和梳理现有OSS、综合网管、厂家网管/控制器和网络设备等的现有架构,由此制定满足自身实际需要的、切实可行的演进路线。 图31全光自动驾驶网络解决方案架构示意图 (1) 极简网络基础设施: 极简网络基础设施是自动驾驶网络实现智能和分层自治的基础与根本保证。一方面,以更简洁的网络架构、协议、设备和站点、部署方案,应对超高带宽和海量连接带来的复杂性,提升全生命周期的效率和客户体验。另一方面,网络设备引入更多的实时感知器件和AI推理能力后,变得越来越智能,不但增强了对资源、业务及周边环境的数字化感知能力,还具备在数据源头做感知分析和决策执行的边缘智能能力。 (2) 网络管控单元: 融合网络管理、网络控制和网络分析三大模块,通过注入知识和AI模型,将上层业务和应用意图自动翻译为网络行为,实现单域自治闭环,保障网络连接或功能的可承诺SLA。网络管控单元通过网络数字建模方法,将离散的网络资源、业务、状态数据关联起来,建立完整的域内网络数字化高清地图,实现网络数据采集、网络感知、网络决策和网络控制一体化。同时,通过持续从云端注入新的AI模型和网络运维知识,不断丰富本地AI模型库和网络知识库,进一步优化增强边缘侧的智能感知和决策能力。 (3) 智能运维平台: 提供运维流程和知识资源、运维可编程设计框架的平台及云服务,聚焦运维流程的打通和灵活的业务编排,允许根据自身网络特点,快速迭代开发新的业务模式、运维流程及业务应用。这是运营商实现业务敏捷性的关键,同时能够推动新型运维人员的技能提升。 (4) 网络人工智能单元: 包括云端的AI训练服务、数据湖服务、云端知识库、AI应用市场等基础服务和能力,提供网络领域的人工智能平台和云服务。一方面,它是网络AI设计和开发的基础平台,支持对上传到云端的各种网络数据,持续进行AI训练和知识提取,生成AI模型与网络知识成果的能力,并可将这种能力注入网络基础设施、网络管控单元和跨域智能运维单元中,显著提升网络智能化水平。另一方面,它也是运营商智力资源共享中心,运营商面向规、建、维、优过程开发和训练出来的各种AI模型、网络知识等成果在网络人工智能单元基础上统一管理,充分共享和重复使用,减少重复开发和训练。