第3章太空安全中的人工智能 3.太空威胁防护中的人工智能 1 太空资产在空间运行过程中面临着来自空间环境、航天器自身故障和太空垃圾碰撞 等安全隐患。人工智能技术可以有效提升太空威胁防护水平。 1.太阳耀斑智能检测 3.1 日冕物质抛射(CoronalMasEjection,CME)是巨大的、携带磁力线的泡沫状气体从 太阳抛射出来的过程,表现为在几分钟至几小时内从太阳向外抛射一团日冕物质(速度一 般从每秒几十千米到每秒一千多千米),使很大范围的日冕受到扰动,从而剧烈地改变白 光日冕的宏观形态和磁场位形。CME是日冕大尺度磁场平衡遭到破坏的结果。CME破 坏了太阳风的流动,产生的干扰会影响到地球,甚至引发严重问题。CME会对低地球轨 道上的卫星造成额外的阻力,使无线电信号路径发生改变,使GPS/GNSS提供的定位信 息出现错误,使电网和管道中产生有害感应电流。能够在CME到达星球之前就及早发 现,对于保护这些系统至关重要。 由TDE计划资助的欧洲航天局创新三角计划正在研究人工智能是否可以改进对 CME的早期检测。该项目与意大利都灵理工大学合作,构建了一个可用于训练深度神经 网络的数据集,将直接在卫星上运行以执行早期CME检测。其数据集基于大角度和光 谱日冕仪(LASCO)拍摄的图像,光谱日冕仪是NASA/ESASOHO联合航天器上的11 个仪器之一。该项目用神经网络检测显示CME的图像,准确率达到了80%~86%,评估 结果证明,人工智能技术可以及早发现CME 。同时,该项目还证明了在空间中使用深度 卷积神经网络的可行性。但是,能否在卫星上使用该技术,使设备能够实时查看和响应 CME,仍需接受评估。 1.航天器故障自动诊断 3.2 新的人工智能技术可以加速航天器和航天系统的物理故障诊断,通过减少停机时间 来提高任务效率。RAISR是由伊凡·吉兹(EvanaGizi)开发的软件,他在美国马里兰州 格林贝尔特的NASA戈达德太空飞行中心工作。借助RAISR,人工智能可以实时诊断 航天器和一般航天系统中的故障。 吉兹表示,目前,超传统的if-then-else故障树可以推断正在发生的事情,这种能力只 有人类才能达到。当前的故障树诊断依赖于简单的物理原理,这些原理已为工程师和科 学家所熟知。例如,如果仪器的温度降得太低,航天器可以检测到这种情况并打开加热 器;如果线路中的电流出现尖峰,航天器可能会自动隔离有问题的电路。在这两种情况 下,航天器只知道如果A发生,则通过执行B来响应,但是航天器无法找出导致这些事件 第3章太空安全中的人工智能·15· 的原因,尤其是在意外故障情况下,若将此类故障传回地球,不仅需要时间,而且会浪费宝 贵的通信网络带宽资源。 利用人工智能技术能够将航天器温度降低与其内部热调节系统有故障联系起来。当 需要使用几种不同类型的数据以极快的速度完成适当的推理时,计算机也优于人类。 RAISR 结合了机器学习和经典人工智能技术,不会以任何方式主动控制航天器,而是通 过发现人类可能遗漏的关联来促进诊断。吉兹表示,虽然基于机器学习的技术在诊断故 障方面特别有用,但其性能的好坏取决于是否拥有大量的数据。在解决过去发生过的故 障时,RAISR 非常有效;但是对于异常,即从未经历过的故障,可能根本没有足够的数据 来使用基于机器学习的技术创建合理的推理。而这就是经典人工智能技术介入的地方, 它能够在复杂的情况下进行推理,而这一推理是没有数据提供支撑的。 NASA 戈达德研究所的希夫高度称赞该系统,认为这不仅仅是一个自动化系统,更 是一个自主系统,它能够理解系统内部关联,通过推理得出结论,如同航天器中一个额外 的大脑一样。约翰逊称该系统为“航天器上的工程师或科学家的简化副本”,这(“) 样他们就 可以在现场做出明智的决定”。随着越来越多的任务采用人工智能技术,测试方法不得不 改变,无法做到测试所有可能的场景,再加上从地面解决问题到让在轨系统自行解决问题 的转变,使得将人工智能放入航天器成为一个渐进的过程。NASA 工程师约翰逊表示: 当(“) 我想到太空飞行时,它是自主系统的目标,这才有意义。我们超越自动化到自主时,真 正的飞跃就会发生,从你知道会发生的编程步骤到系统开始独立思考。当你进入深空时, 会有一些没有编程的情况,因此自主系统的需求确实存在。” 1.太空垃圾自动规避 3.3 太空垃圾是指在人类探索宇宙的过程中被有意无意地遗弃在宇宙空间的各种残骸和 废物,包括报废的航天器及火箭残骸、爆炸产生的碎片、一些零件、宇航员的生活垃圾以及 人类在太空活动中掉落的空间微粒等。太空垃圾飞行速度极快(6~7km/s), 有巨大的杀 伤力。例如,一块10g的太空垃圾撞上卫星,相当于两辆小汽车以100km/h的时速迎面 相撞,卫星会在瞬间被打穿或击毁。此外,人类对太空垃圾的飞行轨道无法控制,这些垃 圾就像高速公路上无人驾驶、随意乱开的汽车一样,是宇宙交通事故最大的潜在“肇事 者”,对于宇航员和飞行器来说都是巨大的威胁。 以往,卫星与卫星相撞的概率并不高。然而,SpaceX公司、OneWeb和亚马逊正在建 设包含数千颗卫星的巨型星座,一个月进入轨道的卫星比以前一整年的都多,空间交通量 的增加引起了空间专家的担忧。欧洲航天局表示,该机构运营商目前监测的近一半会合 警报涉及小型卫星和星座航天器。相关专家表示,自2009 年2月10 日美俄卫星相撞后, 太空卫星相撞问题将在近几十年内变得越来越突出。 人造卫星都达到了第一宇宙速度,因此相撞时的相对速度就更加惊人,而避撞机动需 花费很多时间准备,包括确定所有在用航天器的未来轨道位置,还要计算相撞风险和各种 不同行动的潜在后果。新卫星的设计并未考虑在轨卫星碰撞事件,其轨道设计仍以满足 任务需求为重。但是随着人类航天活动的快速发展,如果未来每年都有成百上千颗卫星 被送入太空,并且产生更多太空垃圾,再宽广的轨道空间也会变得拥堵。对于这种情况, ·16· 人工智能技术在太空安全中的应用 目前采取的措施有以下几种:首先是严密跟踪,这样才能够让面临风险的卫星或者太空 站提前采取规避手段;其次是加强卫星和航天器的外壳,提升防护水平;此外则是正在研 究的清除方式,例如使用太空清洁车或者用激光烧毁碎片。 欧洲航天局表示,每一次太空规避都会消耗大量燃料,太空机构需要花钱预订地面站 通行证,甚至关闭科学数据的采集,专家团队则需24 小时待命,因此呼吁全球人工智能社 区帮助开发一个系统,用于自动处理空间碎片规避或者至少减轻专家团队的负担。欧洲 航天局运营总监罗尔夫·丹辛(RolfDensing)在新闻发布会上表示:“ 我们向全球专家社 区提供了过去联合警告的大量历史数据集,并要求他们使用人工智能技术预测警报发出 后3天内每个警报的碰撞风险的演变。结果尚不完美,但在许多情况下,人工智能能够复 制决策过程并正确识别我们必须在哪些情况下进行避碰操作。” 3.太空空间指挥与控制中的人工智能 2 人工智能系统应用众多,前景广阔,适用于数据丰富且复杂的太空环境,在太空操作 和探索中发挥着越来越重要的作用。从分析火星上的地形到加强卫星与地面之间的通信 能力,人工智能不仅能够提高太空探索任务效率和太空弹性,而且能够快速准确地执行复 杂任务并增强决策能力。 当前,太空环境拥挤、复杂、充满争议,人工智能可显著提高各国领域意识和军事指挥 控制决策的能力,并增加卫星和网络连接的弹性。然而,为使科技充分发挥潜力,必须加 强人工智能技术的安全性,同时提高对于人工智能分析能力的信任。本节将从空间领域 意识、太空空间指挥与控制、太空弹性和人机信任机制4方面对太空领域人工智能的发展 进行剖析。 3.1 空间领域意识智能提升 2. 现今,有2600 多颗活动卫星、34000 多个大于10cm 的不明物体、900000 多块大于 1cm 的空间碎片在环绕地球运行,太空空间愈发拥挤。这些物体所处轨道不同,运行平 面不同,运行速度也相差甚大,加大了太空安全操作和太空资产保护的复杂度,因此,必须 充分利用人工智能提高空间领域意识,对空间资产进行保护。 首先,太空机构利用已有数据和人工智能系统生成可视化的地球轨道物体的空间综 合目录,形成可监测的安全空间领域,对太空物体与卫星碰撞的可能性进行持续监控和评 估,在有碰撞危险时,向卫星操作员发出警报。在这一过程中,人工智能系统利用空间综 合目录确定有风险的卫星,将传统的建模、模拟与深度学习网络和防撞算法相结合,快速 生成避开空间物体的潜在机动列表,以帮助卫星操作员确定保护卫星的最佳行动方案。 3.2 空间指挥和控制智能决策 2. 人工智能另一应用潜力巨大的领域是空间指挥和控制决策。在太空资产遭受威胁 时,太空操作员必须利用人工智能分析大量数据,做出决策,并采取行动。人工智能系统 分析卫星轨迹数据以识别可能的目标,随后迅速制订多种行动方案,包括机动措施、反攻 第3章太空安全中的人工智能·17· 击措施以及进攻参与与防御措施。人工智能系统通过机器学习形成多种行动方案,综合 分析行动后果和下游影响后,将最优方案提交给操作员和指挥官,从而加快空间指挥和控 制决策,加强太空防御。在情况紧急时,这种人工智能/机器学习系统能在几分钟内提供 最优方案,减少碰撞危险。 3.3 太空弹性 2. 为了响应全球通信和数据传输的商业需求,卫星星座及其连接网络技术日益强大,但 其面临的威胁也日趋复杂。在太空系统中使用人工智能系统可以减轻威胁,使太空网络 和星座更具弹性(太空弹性是美国太空体系的评价指标,其主要目的是在自变量日益增 多、对其太空资产安全威胁日益增大的局势下,实现在除去作用力后其太空系统仍能恢复 原来功能或部分功能)。 太空机构通过快速扫描获得的数据识别网络漏洞,自动监测卫星的健康状态以及异 常情况,通过算法来修复或自适应响应漏洞,以确保网络中的所有节点都重新连接,同时 将自学习算法嵌入卫星,使卫星在与地面操作的上行链路和下行链路通信丢失时更具危 险防御弹性。 2.人机信任机制 3.4 人工智能系统运行的安全性和对人工智能的信任度会极大影响太空系统运行的有效 性。人工智能安全始于人工智能算法,开发人员必须确保算法的开发尽可能没有偏见,并 在整个软件开发过程和数据存储中保持安全。此外,太空机构需要对操作员进行人工智 能和机器学习方面的培训,确保操作员了解人工智能系统的构建和设计方式,同时也全面 了解人工智能解决方案的功能和局限性。只有进行全面培训和教育,建立实施安全流程, 操作员和决策者才会对人工智能系统产生足够的信任,更好地使用人工智能系统。 3.太空对抗行动中的人工智能 3 3.1 智能化太空对抗要素 3. 智能化太空对抗包括泛在智能的网络信息体系、融合智能的情报侦察和任务规划的 武器装备、可重构的智能化太空对抗资源管理体系和高素质的作战人员四大要素。 1. 泛在智能的网络信息体系 在智能化太空对抗中,网络信息体系是以网络中心、信息主导、体系支撑为主要特征 的复杂系统,对智能太空对抗体系构建产生基础性、支撑性和决定性作用。未来,随着卫 星通信、5G 网络的广泛渗透,网络信息将无处不在,为分布式智能太空对抗体系提供云网 支持。泛在智能网络是网络信息体系在分布式智能太空对抗体系中的主要形式,通过聚 合火力单元、武器平台等各类终端资源,并提供按需服务能力,提供涵盖太空环境、基础设 施、武器装备、作战人员、保障资源等要素节点共享的资源池。分布式智能太空对抗行动 可以通过网络信息体系访问作战云,实现网络化战场感知、指挥决策、精确打击和综合 ·18· 人工智能技术在太空安全中的应用 保障。 2. 融合智能的情报侦察和任务规划的武器装备 对抗情报搜集与分析过程漫长,而智能化太空对抗对指挥控制及协同联动的精确性 和实效性要求越来越高,要求指挥链与信息链高度融合,能够快速处理实时海量信息,因 此,迫切需要通过融合情报侦察的智能分析算法实现快速精准的指挥控制,下定对抗决 心,并通过对抗推演检验方案的可行性,再将方案转化为具体的对抗行动计划,从而确保 对抗态势信息与战略决策意图能够及时反馈至对抗行动,使对抗态势遵循最优的战略路 径,实现情报、侦察与指挥控制的实时化、精确化、智能化和一体化。 3. 可重构的智能化太空对抗资源管理体系 现代太空对抗体系是包含太空环境、基础设施、武器装备作战人员、保障资源等海量 资源的复杂巨系统,导致对抗体系的脆弱性和漏洞隐患增多,并且可能成为整个太空对抗 体系的“命门”或“死穴”。在智能化太空对抗体系中,需要利用智能博弈技术挖掘分析太 空对抗体系的脆弱性,并利用动态自适应架构等实现太空对抗体系可重构,避免因脆弱性 被敌方利用而导致整个太空对抗体系的级联失效甚至整体坍塌,提高分布式智能太空对 抗体系的生存性和健壮性。 4. 高素质的作战人员 太空对抗由于其太空环境和装备高专业化和高自动化的特点,要求作战人员必须具 有较强的专业技术能力。在智能化太空对抗中,空间装备对作战人员的依赖进一步降低, 但是高素质的作战人员仍是智能化太空对抗的核心。智能化太空对抗并不意味着让无人 智能自主空间装备完全自行决定和实施行动,而是由人主导,采用人机结合的不同方式, 人在后台赋予空间装备一定程度的自主行动权限,让空间装备在一线实施作战行动。人 机协同的方式按照空间装备的自主行动权限从低到高分为“人在环中”“人在环上”人(“) 在 环外”3种:采用“人在环中”方式时,空间装备的行动完全由人来决策和控制;采用“人在 环上”方式时,空间装备按照指令自主决策和实施行动,人按照需要随时介入以接管决策 权;采用“人在环外”方式时,空间装备在指定的行动限制和目标下自主决策和实施行动。 3.智能化太空对抗行动的基本样式 3.2 智能化太空对抗行动有4种基本样式。 1. 智能化天基信息支援保障 智能化天基信息支援保障是指各种卫星基于深度学习等人工智能技术快速、高效地 获取战场环境和态势信息,为地面部队提供情报、气象、通信等支援保障,主要包括天基情 报支援、天基通信支援、天基运输支援、天基装备技术支援和天基后勤支援等。主要支援 保障方式包括:采用智能化信息获取手段,精确侦察、监视敌方的部署和行动,为本国和 盟国及时提供战场态势和军事情报等;为己方行动提供保障,即通过运用气象、通信、导 航、测地等卫星快速、准确地为己方服务。例如,全球卫星导航定位系统已经成为陆、海、 空军导航的标配,使各部队的协调控制能够有条不紊地进行。 2. 天基精确摧毁 天基精确摧毁是指太空对抗力量利用智能化天基武器系统对敌方太空、地面、海上、 第3章太空安全中的人工智能·19· 空中目标进行攻击、将其摧毁的航天作战行动。在这种对抗行动中,利用人工智能技术解 决群体目标与单体目标的识别、无固定规则运动目标信息的融合处理、空中蜂群中单体目 标的威胁判定、单体目标飞行运动假定模型自适应转化、火力拦截控制策略的生成与转 换、高概率拦截火力发射时机控制等技术问题,实现对太空目标的精确捕捉和锁定。天基 精确摧毁主要有3种方法:一是卫星摧毁法,即用己方卫星通过变轨道飞行与敌方卫星 同归于尽,或发射反卫星导弹将目标摧毁;二是卫星捕获法,即利用航天飞机或载人空间 站上安装的反卫星武器系统,以人工操纵方式捕捉敌方卫星并将其带回,或改变其星载仪 器的工作状态,令其为己方服务,变敌方卫星为己方卫星;三是太空对地攻击战,即利用各 种空间武器,从外层空间攻击敌方的各种地面重要目标。 3. 天基智能封锁战 天基智能封锁战是指使用智能化天基武器系统,对进入或经过航天战场的敌方航天 器进行智能识别和作战策略自主规划,对其进行封锁打击,以阻止敌方向航天战场增援, 孤立敌方航天部队的作战行动。在天基智能封锁战中,人工智能技术主要用于增强对具 有高度复杂性、动态性和不确定性的态势的理解能力,使天基武器系统具有理解全局战场 态势和预测态势的能力,实现认知层面态势的自动生成和可视化呈现,完成作战策略自主 规划。天基智能封锁战的主要战法包括以下两种:一是设障封锁,例如在敌方卫星、航天 站等飞行器的飞行轨道上设置大量的太空雷、铁球等障碍物,并保持足以破坏敌方卫星的 相对速度,使敌方卫星望而却步;二是拦截封锁,这种战法主要针对敌方发射的洲际弹道 导弹。 4. 天基认知电子战 天基认知电子战是指利用具有认知能力的电子设备查明、削弱、干扰、阻止敌方使用 的电磁频谱并保护己方使用的电磁频谱的电子对抗活动。天基认知电子战对抗双方都具 备认知能力。一方要躲避干扰,更有效地利用频谱,以获得目标信息;另一方要实施干扰, 阻止其发现和跟踪目标。因此,这种对抗行动本质上是对抗双方在电磁频谱上的博弈。 这就是对抗双方的辩证统一关系,该过程循环的终极就是对抗双方都会逐渐将人工智能 引入电子设备中,认知雷达和认知电子战让上述循环在电子设备中自动进行,让电子设备 具有智能,自己通过学习完善与改进性能。对抗双方最终竞争的目标就是使己方开发的 人工智能技术更有优势,让电子设备具有更加强大的自学习和自适应的能力。 3.3 智能化太空对抗行动建模 3. 智能化太空对抗行动建模包括以下4个步骤。 1. 空间信息智能提取 空间信息智能提取的数据流图如图3-1所示。首先,需要对卫星的元数据进行格式 化处理,形成符合深度学习框架的格式化元数据;其次,选择特征鲜明的数据,以构建面向 对象的学习训练样本库。再次,计算机利用卷积神经网络模型进行深度学习,形成相应的 模型参数,基于人工智能的模型参数进行元数据的目标识别。最后,利用传感器统一语义 描述模型生成统一语义的目标数据。 ·20· 人工智能技术在太空安全中的应用 图3-1 空间信息智能提取的数据流图 2. 多源数据智能融合 当前用于信息获取的天基对抗单元包括光学成像侦察卫星、雷达成像侦察卫星、电子 侦察卫星和海洋监测卫星等多种样式,不同的卫星基于各自的成像原理,形成多源(异构) 数据。多源数据智能融合利用人工智能对数据进行融合,其基本框架如图3-2所示。首 先,进行空间融合,形成区域内的多源大数据;其次,基于数据特征、目标类型和时相等特 征进行深度融合;最后,基于目标位置、特征及其时空变化规律构建面向对象的主题数据 库,为智能对抗的自主规划单元提供数据支撑。为提高数据融合的效率,必须基于目标本 身的认知特征,构建模拟数据产生器,然后进行机器学习,构建目标识别模型。 3. 对抗态势研判及预测 对抗态势研判及预测重点研究基于目标态势的情况分析判断技术,实现对战场态势 的深度分析和对未来态势的估计,解决目前态势分析大都停留在数据层且有态无势的问 题。对抗态势研判及预测的主要流程如图3-3所示。 在态势研判中,结合复杂适应性理论和复杂网络方法,构建基于复杂网络的多智能体 模型,将复杂网络描述系统整体的长处与多智能体描述微观实体的长处相结合。利用复 杂网络对对抗系统进行建模,将对抗节点之间的指挥、控制、协同、协作、侦察、打击等联系 第3章太空安全中的人工智能·21· 图3-2 多源数据智能融合基本框架 图3-3 对抗态势研判及预测的主要流程 和关系作为边,形成复杂网络。运用图论的方法将复杂网络汇总关系的抽象和关系的度 量用加权邻接矩阵表示,通过复杂网络点和边的分布规律和变化规律来认识对抗系统的 结构、行为、演化等方面的特点和规律,分析对抗重心及协同关系,实现战场态势研判。 态势预测指基于对当前态势的理解对未来可能出现的态势情况进行预测。通过多智 能体建模技术构建对抗实体模型,以反映对抗实体个性、能力对系统演化的影响。利用复 杂网络技术构建对抗实体交互关系模型,结合复杂网络技术的宏观层面网络分析,反映实 体之间的交互关系及网络演化趋势。通过机器学习(离线学习与在线学习相结合)的方式 得到大量的训练数据及模型参数。在进行态势预测时,利用训练数据与模型,结合复杂网 络演化规律和多智能体行为规律,生成敌方行动决策,形成敌方态势预测,从而为己方指 ·22· 人工智能技术在太空安全中的应用 挥员的任务规划提供精准的敌方动向情报支撑。 4. 对抗任务自动分配 对抗任务自动分配过程是统筹资源和匹配能力的过程,即根据对抗任务的能力和时 间需求,安排能力与之匹配的对抗实体执行相应的对抗任务,且任务分配需符合整体对抗 态势需求。对抗任务自动分配研究的关键在于:通过将双方在关键性局部战场的力量对 比关系、交战格局关系、火力接触关系和火力分配关系进行综合分析,得出双方的对抗势 能比值,在定量计算的基础上进行对抗任务的智能分配。对抗任务自动分配的主要流程 如图3-4所示。 图3-4 对抗任务自动分配的主要流程 1)基于层次任务网络的对抗任务分解 基于层次任务网络(HierarchicalTaskNetwork,HTN)的对抗任务分解就是将复合 任务按照某种规则逐层细化为子任务,直至细化为战术行动的过程。该技术通过引入基 于军事规则的决策支持库构建基于HTN 的对抗任务生成框架。决策支持库主要由模型 库、方法库、知识库、数据库等构成,以创新方式使用海量数据,通过感知、认知和决策支持 的结合,建立真正能独立完成决策的辅助分析模型,结合对抗任务智能规划的基本流程, 以总体对抗任务为出发点,深入分析对抗目标与对抗任务的映射关系,建立基于目标匹配 和任务模板库的任务分解知识库,以支撑HTN 方法在对抗任务智能规划中的应用,实现 在对抗人员的有限参与下高度自主地分解对抗任务,确定对抗目标和行动方案。 2)基于对抗效果的作战行动序列生成 在基于效果的对抗理论的指导下,对效果、作战行动序列(CourseOfAction,COA) 等概念进行形式化描述。从预期要达到的最终效果出发,进行逆向推理,建立从期望态势 到初始态势逐级效果之间定性的影响关系模型,并根据影响关系模型选择相应的作战行 动,逆向生成初始COA 。根据战场态势数据建立不确定条件下的计划识别方法,得到敌 方计划及意图,结合初始COA 确定对期望态势有重要影响的关键对抗行动(集)。根据 关键对抗行动(集)动态调整初始COA,建立基于影响网的COA 动态推理模型,通过该 模型的不确定性推理,最终生成基于效果的反应式COA 。 3)任务冲突检测 任务冲突检测包括时间冲突检测、空间冲突检测和物域冲突检测。 (1)时间冲突检测。通过建立有向图并在有向图中寻找有向圈的方法检测有冲突的 对抗行动子集。 (2)空间冲突检测。对对抗单元的威力范围或空间使用需求进行几何建模,形成一 系列空间对象单元,然后通过空间对象间的几何拓扑关系实现空间交叉分析与冲突判断。 (3)物域冲突检测。首先通过对抗单位的执行行动关联到对抗对象,然后根据对抗 对象的属性和对抗要求,按照杜派指数模型和战斗损耗方程进行资源需求量的加权计算, 进而判断对抗单位资源分配的合理性。 第3章太空安全中的人工智能·23· 5.对抗方案智能推演与评估 对抗方案智能推演与评估主要基于离线学习与在线学习相结合的智能推演技术,利 用机器学习的人工智能模型构建方法以及整体评估与局部评估相结合的对抗效能智能评 估方法来实现。 1)多级多类对抗实体智能模型构建 对抗实体是进行方案推演的基础要素,对抗实体智能模型构建是对其自适应感知、决 策、行动过程的描述,可认为是在连续状态空间、离散动作空间上的多步强化学习过程,其 本质是解决其最优行动策略生成与优化问题。该技术重点利用深度Q网络(DepQNetwork,DQN )、双层DQN 、深度确定性策略梯度算法(DepDeterministicPolicyGradientAlgorithm,DDPG)等值迭代与策略搜索相结合的强化学习技术,实现对多类对 抗实体的COA生成。对于对抗实体群体AI模型的构建,可采用共享记忆认知库的Q值 (奖赏评价值),所有同类对抗实体共享相同的Q值,对抗实体执行各自任务的过程中,可 以将其他实体和对抗环境看作外部态势,通过通信和反馈实现自身决策模型的优化。 2)基于机器学习的对抗方案智能推演引擎 智能推演引擎是驱动对抗方案多分支平行仿真、大样本并行仿真实验的基础支撑平 台,着眼于提高仿真推演的智能化程度,应实现基于有限样本条件下离线学习与深度强化 学习的在线学习相结合的智能推演机制。有限样本条件下的离线学习主要利用我军、外 军有限的训练和实战对抗训练样本,运用深度逆向强化学习、迁移学习、小样本类人概念 学习和对抗生成式网络技术,构建面向陆军诸兵种(专业)的多分辨率仿真指挥实体的AI 模型与行动实体模型。面向智能蓝军的在线学习主要利用蒙特卡洛树搜索算法,集成行 动策略网与态势估值网,实现与智能蓝军对抗条件的策略优化与调整的过程。 3)对抗方案的智能评估 对抗方案的智能评估包括关键性问题的分段或专项评估以及整个对抗方案的综合评 估。对抗方案评估是从可行性、风险度、对抗效益等进行的评价和估量,采用静态评估与 动态评估相结合、正向评估与逆向评估相结合、人工评估与系统评估相结合、整体评估与 局部评估相结合、过程评估与结果评估相结合等多方式、多角度展开,找出方案的优点与 缺点,发现方案存在的问题与不足,分析产生问题的原因,为方案的优化调整提供科学参 考。在评估对抗方案时,主要依据专项评估与综合评估指标,结合目前成熟的指数法、最 大熵法、模糊综合评判法等评估方法,多层次、多角度地给出评估结论,从而衡量对抗方案 的优劣。