5.1概述 场景语义解析的核心目标,在于如何生成同时具有强大语义和精确定位的高分辨率语义结果。然而,这两者之间的内在矛盾促使大多数现有方法在分辨率重建过程中对高级语义和精细定位之间倾向于进行极限权衡或过度补偿,这可能导致性能有限或计算成本巨大。为此,本章致力于从频率空间解耦语义和定位表征来提高网络的分辨率细节重建能力和泛化能力。具体而言,本章针对 5.1.1节提出的科学问题,给出了如5.1.2节所述的研究内容及解决方法。 5.1.1拟解决的主要问题 本章拟解决的场景语义解析网络在高分辨率语义生成方面的主要问题如下。 (1)高低层特征之间语义粒度差异产生的语义鸿沟容易导致上下文建模过程中的信息淹没与语义混淆。首先,不同层次特征之间的语义鸿沟是多层级上下文建模过程中不可避免的挑战。现有方法通常利用像素级注意力( pixel-wise atten-tion)[60,137]或门控机制( gating mechanisms)[62,140],通过为多层特征分配不同权重来构建上下文关系。然而,这些方法往往由于低层特征的引入而产生语义混淆,且低级特征由于语义较弱容易受光照变化及图像噪声影响,使得有用信息淹没在大量无效信息中,从而损害模型泛化能力。针对该问题,本章强调,每一层级的语义特征在同一特定位置下的贡献是不一致的。因此,得益于频域下图像幅度谱的语义特异性,本章设计了一个具有动态加权机制的幅度感知器,通过自适应调制频谱中每个频率分量的强度,在增强语义表征的同时,避免语义鸿沟问题。 (2)不同层级或尺度的特征之间的空间偏移或错位,致使特征融合阶段空间定位结构难以对齐。多尺度特征融合过程中的定位结构对齐问题对精确分割结果至关重要。它主要源于上采样或噪声干扰等原因导致的深浅层特征之间的空间位置偏移或错位。现有方法 [11,28,39]往往通过光流或变形网络来对齐高低层特征或单纯拉取浅层特征来增强定位信息等。然而,由于没有直接解决深浅层特征在空间位置上的偏移根源,这些方法难以确保特征在融合时定位结构的一致性和准确性。得益于相位具有语义无关但定位特异性,本章提出利用相位来显式挖掘并修正每层特征的定位信息,促进细粒度重建的原型定位表征。 (3)标准的语义分割优化目标由于强制让所有网络层致力于拟合最终的语义信息,致使层级语义特征趋于同质化。辅助监督作为一种常用的训练策略,致力于提高分割性能。然而,值得注意的是,在中间层仅依赖语义标签作为优化目标可能会导致优化不平衡和性能受限,因为它迫使每一层的输出都去拟合相同的语义标签。这一过程从本质上破坏了多层特征之间的语义多样性和互补性,使其趋于同质化。这对解码器中以细粒度分辨率重建为目标的网络层尤其不公平。尽管有些方法 [10,62]建议使用边界监督来提高性能,但它们仍然无法摆脱语义本身带 来的优化约束。得益于解耦的纯相位描述的每层特征的定位信息是类无关且客观存在的,为此,本章特别定义了一个相位敏感性损失作为辅助约束,以促使网络各阶段基于相位来自适应学习无关于语义的原型定位,保证多层级语义多样性和鲁棒性。 5.1.2研究内容及贡献 针对5.1.1节所提出的科学问题,本章研究内容及贡献如下。 (1)本章探索了频域下图像谱特征的反向对称固有特性,即幅度谱的语义特异性但定位无关性及相位谱的语义无关性但定位特异性。 (2)本章提出了基于动态权重机制的幅度感知模块 MP,通过动态学习各频率分量强度,来自适应地捕获特定频率组合,从而在增强语义表征的同时,避免语义鸿沟。 (3)本章提出了一种简洁的相位修正模块 PA,通过自适应学习相位偏移,从而使模型保持对定位偏移的敏感度,进而提升了细粒度的原型定位表征。 (4)本章定制了一个相位敏感损失 PSL,来促进网络自适应地学习不同层级语义无关的原型定位特征,从而优化了定位信息并增强了分辨率重建细节。 5.2图像频域表征分析 5.2.1图像频域表征形式 作为频率的复值函数,(快速)傅里叶变换[134](FFT)以相同的长度将有限信号从时域变换到频域。换言之, FFT可用于实现原始输入的频率表征变换。图像作为一种只有实数的二维离散有限信号,因此它的频率表征可以通过式 (5.1)所示的 2D FFT获得。 H.1W∑.1 ∑ mx ( H + nyW) F (m, n)= f(x, y) · e.j2π(5.1) x=0 y=0 其中,f(x, y)表示大小为 H × W的图像在空间坐标 (x, y)下像素值;F (m, n)是空间频率坐标 (m, n)处所对应的频率值。 在给定 F (m, n)的情况下,可以通过式 (5.2)所示的反 FFT(IFFT)来恢复原 始图像信号 f(x, y)。 H.1W∑.1 ∑ mx 1 ( H + nyW) f(x, y)= F (m, n) · ej2π(5.2) HW m=0 n=0 根据欧拉公式,式中的 F (m, n)复数值可以用以下三种形式进行表示。 (1)实部-虚部表征:设 R(m, n)和 I(m, n)分别表示 F (m, n)的实部和虚部,简记 R(m, n)= A和 I(m, n)= B。式(5.1)可被变换为 F (m, n)= R(m, n)+ jI(m, n)= A + jB (5.3) 该表达形式比较直观,却由于其物理意义不明确而不利于谱分析和处理。 (2)幅值 -相位表征:数值上,利用 F (m, n)的模和辐角来分别表示其幅度和相位,即 √√ |F (m, n)| = R(m, n)2 + I(m, n)2 = A2 + B2 () (5.4) I(m, n) B ∠F (m, n)= arctan = arctan R(m, n) A 幅值代表强度,其数值大小反映了某一空间频率对图像的贡献有多大。它反映了 图像特征的几何结构,即空间域的变化。相位反映了每个频率的一个完整正弦波周期的移动,它决定了图像特征的位置。 (3)极坐标表征:该方式利用复平面上的极坐标来表示 F (m, n),其中极半径为 rF (m, n),极角为 θF (m, n)。因此,可以将 F (m, n)重写为 F (m, n)= rF (m, n) · ejθF (m,n) (5.5) 其中, rF (m, n)= |F (m, n)| = √ A2 + B2 B (5.6)θF (m, n)= ∠F (m, n)+2kπ = arctan +2kπ,k ∈ Z A 由于具有周期性 2kπ的极角在数值计算后的 F与利用相位计算的一样,故本书在进行变换时不计入 2kπ。本章方法主要是通过 PyTorch中的傅里叶变换函数计算图像或特征图的频谱,得到其实部 -虚部表征,而后计算其幅值 -相位表征,用于进一步表征学习和处理;最后,通过极坐标表征将学习到的幅度和相位频谱组合成新的频率输出,并利用 PyTorch进行逆傅里叶变换生成空间特征图。 5.2.2图像谱特性分析 本章探索了一种重要假设:场景语义解析任务中目标 /区域的语义信息与定位信息应是可解耦的。即某一物体 /区域是什么,与它在图像中的位置无关。这同样适用于交互性语义,例如人和自行车可以被划分为骑手这一语义类别,而将其作为一个整体时,则该“骑手”的语义信息并不取决于其在图像中的空间位置;同样,图像中的定位信息也并不一定涉及其语义信息。尽管有些形状 /纹理本身就是语义的一种,但此处更强调其在图中的空间位置/旋转/缩放等。 受自然图像频率模型的启发,图像的幅度谱反映了图像中每个频率分量的强度,而其相位则代表了对应分量的位置,故通过图 5.1的图像谱特性分析验证相关假设。将原始“人”的幅度与频域中随机平移图像的相位相结合,然后逆变换到空间域的结果。很明显,结果与随机平移图像相同,这表明改变相位可以在幅值不变的情况下改变物体位置。即相位决定了物体定位,反映了其语义无关但位置特定的特性。右图表示将“道路”的幅值替换为“天空”的幅值后,“道路”区域变成了类似天空的外观,或者说具有天空语义。这意味着保持原始相位不变时,幅度能够控制图像的语义,体现了其语义特定但位置无关的特性。上述观察结果表明,幅值和相位的独立表征有助于实现“语义”和“定位”之间的解耦。 图 5.1图像谱特性分析示意图 鉴于此,启发于之前的工作 [43,135,141-142],图像的幅值和相位在语义和定位信 息之间具有反向对称特性,即幅度谱具有语义特异性但定位无关性,而相位谱具有语义无关性但定位特异性。 5.2.3语义-定位解耦表征变换 图5.2描绘了语义 -定位解耦表征变换的具体过程,称为自适应频率感知模块 (adaptive frequency-aware module,AFM)。该过程主要包含 3个步骤:首先对多层级空间特征进行 FFT,并对高/低分辨率特征进行尺度对齐预处理,然后对所有特征图进行幅 -相感知学习以获取频域下语义 -定位解耦表征结果,最后将学习后的结果组合后进行 IFFT至图像域进行表征,并使用一个点卷积控制通道数量。其中,幅-相感知过程作为本章关键内容将在后续章节进行详述。 图 5.2自适应频率感知模块结构示意图 1.尺度对齐预处理 解码器的设计必然涉及上采样过程,而通用上采样方法无非三种:插值、反卷积或像素混洗。插值计算速度虽快,但精度较差,尤其对物体或区域边界影响较大。另外两种方法计算量过大,效率不高。为解决这一问题,本节探索了一种高效的谱上采样方法对解耦表征前的谱图进行预处理以实现频域内的尺度对齐。 设 Flow为低分辨率特征输入的 FFT结果, Fhigh为高分辨率特征的对应结果。 ′ 然后,将 Flow用零填充到 Fhigh的大小,就可以得到 Flow: F ′ w = Pad(Flow,Fhigh.shape) (5.7) lo 高低尺度特征进行尺度对齐后,将两组特征图的频谱图级联为 Ffuse,即 . .Flow,Fhigh为 . Ffuse = ()(5.8).Concat F ′ Fhigh,其他 low, 最后,尺度对齐后的频谱 Ffuse通过式(5.9)转换成幅-相表征形式,以便进一步 处理: . . . Fmag = |Ffuse| Fpha = ∠(Ffuse) (5.9) 2.输出变换 利用式(5.10),将学习到的 Umag和 Upha转换为实部-虚部表征形式为 Of = Umag · e(1j×Upha) (5.10) 然后将结果 Of进行逆傅里叶变换到图像域,并使用空间点卷积 Ws1×1 将通道数调整为所需数量。将空间域输出定义为 Os ∈ R[C,H,W ],可得 Os = W 1×1 . (IFFT(Of)) (5.11) s 5.3基于幅度感知的语义多样性表征 5.3.1设计原理 鉴于语义鸿沟问题的存在,本节认为不同层级特征在融合后特征图的每个位置上的重要性并不相同。因此,鉴于空间上下文关联的限制,纯空间图像中的像素组合很难独立判别准确的语义分布。考虑到频域图像的幅度谱具有语义特异性,但与定位无关,本节提出使用频率级特征提取来学习解耦的幅度谱的分布,有助于学习空间图像的语义分布,进而辅助缓解语义鸿沟问题。 为验证该假设,本节考虑一个简单的相邻层级特征图融合问题来说明幅度感知器的设计原理,如图 5.3所示。其中,第一行特征图分别来自 ResNet-18[1]网络的 1/32和 1/16尺度,提取它们的幅度谱,分别使用两个手工设计的掩膜与之相乘,最后再变换回图像域。最右侧上下两张图分别展示了幅度谱调整前后的融合效果。由图 5.3可知,来自 ResNet-18骨干网络最后一层的 1/32尺度特征突出了“车辆”类的语义,而 1/16尺度输出则主要提取了边界。直接融合这些特征得到的( c)列上方结果表现出明显的语义混淆。而经过掩码处理的幅度谱与原始相位谱结合后被转换回空间域,其输出结果如图第四行所示。结果显示,由于部分频率被移除,转换后的图谱保留了相对较强的激活特征,即掩码后的 1/32尺度输出减少了一些高频干扰,而 1/16尺度输出则保留了部分边缘。至此,假设成立。总结而言,直 接融合(在本例中使用随机 3 × 3卷积)原始特征图可能会造成语义混淆,而融合幅度掩码图则可以获得更为准确的语义和精确的边界。 图 5.3幅度感知器的设计原理示意图 上述讨论揭示,在幅度图上学习频谱特性,能够自适应地评估频谱中各频率成分的重要性,这不仅对于语义控制具有可行性,且有利于特征的有效融合和噪声的有效屏蔽。 5.3.2网络结构设计 幅度感知器的目标是确保网络能够提高对各频率分量的敏感度,以便在后续变换中对重要的频率分量加以利用和分析,并对价值较低的部分进行抑制。为此,本节提出通过对幅度权重进行显式建模以实现这一目标。图 5.2的蓝色方框部分给出了幅度感知器的结构。具体地, MP是一个具有动态加权机制 Tmag的幅值计算单元。假设 wmag表示学到的权重,则 MP的输出 Umag可表示为 Umag = T (Fmag,Wmag) · Fmag = wmag · Fmag (5.12) 由于大多数自然图像的幅度谱在统计上呈 1/f2幂律分布 [143],故幅度谱经过 对数变换后会呈现巨大的尺度差异。为解决该问题并提高网络学习效率,本节利用 Sigmoid函数对幅度谱进行归一化到 [0,1]范围,即 . Fmag = σ(ln(Fmag)) (5.13) 其中,σ指的是 Sigmoid函数。然后,考虑到模型的复杂性,MP利用 1×1.3×3.1×1的卷积层(其中通道数变化为 C . C/4 . C)形成一个瓶颈来制定动态权重机制。特别是,每个卷积层之后都有一个实例归一化( IN)层和 Sigmoid激活层。由此可得下式 . . W i wmag = Tmag(Fmag,Wmag)=Π3 i=1mag . F.mag .W i mag (·))),k =1或 3 (5.14) mag = σ(IN(W k×k 其中,.表示卷积运算符, Π指连续的卷积运算, W k×k 是一个大小为 k × k的卷积核。根据式(5.12)~式(5.14),可以得出 MP最终输出的mag完整形式,即 Umag = T (Fmag,Wmag) · Fmag (5.15) = (Π3 W i i=1mag . [σ(ln Fmag)]) · Fmag 最终输出 Umag可以解释为特定频率成分的集合,其统计量对整个语义表征具有重要价值。 5.4基于相位修正的定位原型优化 5.4.1设计原理 场景语义解析任务中,生成高级语义时,往往存在空间定位结构不对齐问题。空间定位结构不对齐问题是指在不同层级的特征图之间,存在着空间尺度和定位位置的不匹配,导致生成的高级语义缺乏语义一致性和定位准确性。例如,在场景语义解析任务中,由于下采样和上采样的操作,高分辨率的特征图和低分辨率的特征图之间的对应关系会发生偏移,从而影响目标的边界和细节的恢复。考虑到图像的相位频谱保留了每个频率成分的位置信息,但没有保留其语义标签的信息,因此本节提出:能否通过简单地调节低分辨率特征图的相位来修正上采样特征图的定位? 为此,本节进行了一个简单实验来说明相位修正器的设计原理,如图 5.4所示。从 ResNet-18[1]的最后一层获取一张特征图 Feata,并简单地用 FFT计算其相位谱 Phasea。我们定义一个随机相位偏移 .P ∈ [.π, π]。令 Phasez = Phasea +.P。然后,进行 IFFT,生成修正后的特征图 Featz。可以看出,原始的特征图 Feata是随机相移的,生成的图更加模糊,甚至部分偏离定位。相反,若已知 Featz,令 Phasea = Phasez . .P,那么就能生成相对精确的定位特征图 Feata。 图 5.4相位修正器的设计原理示意图 基于上述观察结果,可以认为,对不同尺度的特征相位谱进行自适应相位偏移(.P)学习能够产生更好的语义定位并促进空间位置对齐。 5.4.2网络结构设计 基于以上分析,本节提出一种相位修正器( PA)来进行语义定位的优化与对齐,其目标是使模型对偏离规范的定位特征保持敏感性。为此,本节提出一种谱残差映射 Tpha(Fpha,Wpha)来学习定位的估计误差。定义 PA的输入输出如下: Upha = Fpha + Tpha(Fpha,Wpha) (5.16) 与 MP类似,同样设计 PA模块为一个通道数变化为 C . C/4 . C的 1 × 1 . 3 × 3 . 1 × 1卷积瓶颈结构作为残差相位映射 Tpha(Fpha,Wpha)。注意,与 MP不同的是, PA结构中,每个卷积层之后都有一个实例归一化( IN)层和 Tanh激活层。 . .Tpha(Fpha,Wpha)=Π3 i=1W i pha . Fpha W i . pha = δ(IN(W k×k k =1或 3 (5.17) pha (·))), 其中,δ表示 Tanh激活函数。至此,PA的输出可表示为 W i Upha = Fpha +Π3 i=1pha . Fpha (5.18) 最终输出 Upha可以解释为特定频率的校正定位结果,这对图像的显式原型定位表征非常有价值。 5.5相位敏感性约束 5.5.1设计原理 本节考虑了网络训练过程中的辅助约束条件,以提高最终性能。本节考虑在网络中间层引入一个新的辅助损失来缓解标准语义分割的不平衡优化问题。该问题主要表现在以下两方面:一方面,网络的不同尺度具有不同的特征信息,强制不同尺度学习所有尺度的信息是不公平的;另一方面,各层级特征融合的目的之一就是取长补短,这意味着需要保证各层级特征的多样性,而对各层网络使用与最终输出相同的损失函数,可能导致各层特征的同质化,从而削弱特征融合效果。为了同时保证各层级特征语义信息的多样性,同时保证最终分割结果的边界准确性,本节提出利用相位谱的语义无关性,在网络中间层引入相位敏感性损失(PSL)。 为了验证这一想法,本节进行了如图 5.5所示的实验来说明相位敏感性约束的设计原理。图中第一行左图的分割结果来自 UNet-ResNet18[22],右图是该场景语义分割的真值。在该案例中,主要关注 person这一类别的分类结果,如第二行所示。对比可见, UNet-ResNet18的预测结果在分割边界上并不精确。实验发现,如果将真值的相位直接与预测图的幅值拼接,则可以得到如第四行所示的较为精准的分割结果。这意味着,通过相位监督能够有利于直接优化中间层的特征定位,而 不对各特征的语义层级造成影响。 图 5.5相位敏感性损失的设计原理示意图 基于以上观察,本节在解码器的各个尺度上添加了像素级的分类头,分别计算其预测结果和真值的相位谱之间的距离,并将其作为优化目标的辅助约束,以提高各层特征的定位性能。 5.5.2设计细节 本节提出的相位敏感性损失(PSL)计算流程如图5.6所示。 算法3给出了该计算过程的伪代码。PSL的详细计算过程如下。 图 5.6相位敏感损失计算流程 算法 3: PSL计算过程伪代码 输入:预测结果 pr∈ R[b,nc,h,w],真值 gt∈ R[b,1,h,w],其中 b为批大小,nc为类别数,h为高度,w为宽度。输出:计算损失 Lpsl gt.← Onehot(gt), . pr ← Softmax(pr); Fgt ← FFT(gt.),Fpr ← FFT(. pr); Pgt ← ∠Fgt,Mgt ←|Fgt|,Ppr ← ∠Fpr; M ← zeros(b, nc, h, w); while 0 . i0.3)和强烈相关(相关度 >0.6)的比例,如图 5.12和表5.3所示。可以看出, PSL降低了每个阶段的特征相关性,尤其是对于中等尺度阶段。这可能是由于 Dec5的语义最强、分辨率最低,因此受辅助约束的影响相对较小。另外, Dec2与最终输出相邻,其表示与分割结果高度相关,因此有无 PSL在特征相关性上的差异较小。这一结果充分证明了 PSL在保持特征多样性方面的优越性。 表 5.3特征相关性定量分析表 相关程度 Dec5 Dec4 Dec3 Dec2 w/o w w/o w w/o w w/o w 部分相关 (%) 14.7 10.8 17.2 12.3 27.4 18.8 35.7 28.6 强烈相关 (%) 0.7 0.5 2.3 0.8 5.5 2.4 6.2 4.3 5.6.3与当前先进方法的性能对比 1.在数据集 Cityscapes上的性能对比 表5.4展示了 MPLSeg与现有先进方法在 Cityscapes[107]测试集上的对比结果。为便于比较,本节实验尽量比较了使用相同骨干网络的方法。对于大尺寸模型,为实现公平比较,本章方法如其他方法一样,网络是在训练-验证集上训练的。 表 5.4 MPLSeg与现有先进方法在 Cityscapes测试集上的对比 模型大小 方法 骨干网络 mIoU BiSeNetV1(ECCV’18)[28] ResNet-18 74.7 UperNet(ECCV’18)[146] ResNet-18 75.4 ShelfNet(ICCV’19)[116] ResNet-18 74.8 MSFNet(BMVC’20)[147] ResNet-18 77.1 小模型 SwiftNet(CVPR’21)[114] ResNet-18 76.4 MSFNet(TIM’21)[125] ResNet-18 77.1 MPLSeg(本章方法) ResNet-18 78.1 MPLSeg(本章方法) Swin-T 79.4 MPLSeg(本章方法) ConvNeXt-T 79.5 续表 模型大小 方法 骨干网络 mIoU PSPNet(CVPR’17)[35] ResNet-101 78.4 PSANet(ECCV’18)[148] ResNet-101 79.7 CCNet(ICCV’19)[61] ResNet-101 81.4 DANet(CVPR’19)[99] ResNet-101 81.5 CPNet(CVPR’20)[149] ResNet-101 81.3 OCRNet(ECCV’20)[150] ResNet-101 81.8 SFNet(ECCV’20)[124] ResNet-101 81.8 SPNet(CVPR’20)[151] ResNet-101 82.0 大模型 GFFNet(AAAI’20)[140] ResNet-101 82.3 OCNet(IJCV’21)[152] ResNet-101 80.1 ContrastiveSeg(ICCV’21)[153] ResNet-101 79.2 MaskFormer(NeurIPS’21)[154] ResNet-101 80.3 DeepLabV3+MCIBI(ICCV’21)[155] ResNet-101 82.0 DeepLabV3+MCIBI++(TPAMI’22)[156] ResNet-101 82.2 MPLSeg(本章方法) ResNet-101 82.6 MPLSeg(本章方法) Swin-L 83.1 MPLSeg(本章方法) ConvNeXt-L 83.3 在小模型上,本章方法大幅提升了现有方法的准确率,尤其是基于 ResNet-18骨干模型取得了 78.1%的 mIoU,甚至接近了 PSPNet[35]在 ResNet-101下的结果( MPLSeg-ResNet18-78.1% vs. PSPNet-ResNet101-78.4%)。MPLSeg在高效卷积网络( ConvNeXt-Tiny 79.5%)和 Transformer模型( Swin transformer-tiny 79.4%)上的表现也同样令人欣慰。 基于 ResNet-101骨干模型时,尽管现有方法已经取得了接近极限的效果,但本章方法依然对各模型的准确率有所提升。注意到 TPAMI’22的方法 MCIBI++是一个表现极好的基准网络 ,在类似的训练和测试条件下,本章方法取得了 0.4%的提升及最先进的分割性能。这充分说明了本章方法的优越性。 2.在数据集 ADE20K上的性能对比 表5.5显示了 MPLSeg与现有先进方法在 ADE20K[109]验证集上的比较结果。当采用 ResNet-18骨干网络时,MPLSeg的 mIoU达到了 40.9%,比之前的 Uper-Net+ConvNeXt高出 2.1% mIoU。在以 ResNet-101为骨干的方法中,本章方法 也表现出了很强的竞争力。值得一提的是,使用 Swin-Transformer或 ConvNeXt的 MPLSeg优于其原始论文中报告的最佳结果( 54.0% vs. 52.1% (1.9%↑),54.5% vs. 53.2% (1.3%↑))。这对于细粒度语义分割任务提供了新的思路和方法。 表 5.5 MPLSeg与现有先进方法在 ADE20K验证集上的对比 模型大小 方法 骨干网络 mIoU UperNet(ECCV’18)[146] ResNet-18 38.8 Swin Transformer(ICCV’21)[145] Swin-T 44.5 小模型 MaskFormer(NeuraIPS’21)[154] ConvNeXt(CVPR’22)[144] Swin-T ConvNeXt-Tiny 46.7 46.1 MPLSeg(本章方法) ResNet-18 40.9 MPLSeg(本章方法) Swin-T 46.7 MPLSeg(本章方法) ConvNeXt-T 47.3 PSPNet(CVPR’17)[35] PSANet(ECCV’18)[148] ResNet-101 ResNet-101 43.3 43.8 UperNet(ECCV’18)[146] ResNet-101 42.9 EncNet(CVPR’18)[157] ResNet-101 44.7 CCNet(ICCV’19)[61] ResNet-101 45.8 CPNet(CVPR’20)[149] ResNet-101 46.3 OCRNet(ECCV’20)[150] ResNet-101 45.3 GFFNet(AAAI’20)[140] ResNet-101 45.3 OCNet(IJCV’21)[152] ResNet-101 45.5 大模型 MaskFormer(NeuraIPS’21)[154] ResNet-101 45.5 DeepLabV3+MCIBI(ICCV’21)[155] ResNet-101 47.2 UperNet+MCIBI++(TPAMI’22)[156] ResNet-101 47.9 Swin Transformer(ICCV’21)[145] Swin-L 52.1 MaskFormer(NeuraIPS’21)[154] Swin-L 54.1 ConvNeXt(CVPR’22)[144] ConvNeXt-L 53.2 MPLSeg(本章方法) ResNet-101 47.9 MPLSeg(本章方法) Swin-L 54.0 MPLSeg(本章方法) ConvNeXt-L 54.5 3.在数据集 COCO-Stuff上的性能对比 MPLSeg与现有先进方法在 COCO-Stuff 164K[108]验证集上的对比结果见表5.6。无论是在 ResNet系列、ConvNeXt系列还是在 Transformer模型(Swin transformer) 上,本章方法都取得了优异结果,进一步证明了 MPLSeg的有效性。 表 5.6 MPLSeg与现有先进方法在 COCO-Stuff 164K验证集上的对比 模型大小 方法 骨干网络 mIoU BiSeNetV1(ECCV’18)[28] ResNet-18 28.6 小模型 MPLSeg(本章方法) ResNet-18 32.2 MPLSeg(本章方法) Swin-T 40.0 MPLSeg(本章方法) ConvNeXt-T 40.3 SVCNet(CVPR’19)[158] ResNet-101 39.6 DANet(CVPR’19)[99] ResNet-101 39.7 OCRNet(ECCV’20)[150] ResNet-101 39.5 SpyGR(CVPR’20)[159] ResNet-101 39.9 大模型 MaskFormer(NeuraIPS’21)[154] ResNet-101 39.3 DeepLabV3+MCIBI(ICCV’21)[155] ResNet-101 41.5 UperNet+MCIBI++(TPAMI’22)[156] ResNet-101 41.8 MPLSeg(本章方法) ResNet-101 43.6 MPLSeg(本章方法) Swin-L 46.5 MPLSeg(本章方法) ConvNeXt-L 46.8 5.7本章小结 本章提出的 MPLSeg是一种新颖的分割架构,它致力于增强网络的分辨率细节重建能力和泛化能力。通过揭示图像幅值和相位在语义和定位方面的对称反向固有特性, MPLSeg的核心组件 AFM利用幅度感知器 MP和相位修正器 PA促进模型保持对突出频率组合和非规范定位特征的敏感性。此外,辅助相位约束 PSL强调了纯相位监督在原定位优化中的有效性。细致的消融研究突出了 MPLSeg的核心价值在于,针对定位敏感的视觉任务进行语义定位解耦建模和分析具有普适性和优越性。大量的实验证明了 MPLSeg的优越性,其在公共数据集上实现了最先进的性能。本章工作还阐述了以往架构在原型定位表征建模方面的一些局限性。该工作进一步证明了将谱建模方法引入神经架构工程领域的潜力,促进了对视觉模型内在机制的深入研究。