随着机器人与人工智能技术的发展,自主智能系统在现代工业、国防及日常生活等领域取得了广泛应用。场景语义解析,又称场景理解或语义分割,是视觉环境感知的核心问题与基础性关键技术,旨在通过对复杂的自然图像进行像素级分类,将视觉传感器数据转换为符合人类认知与表述习惯的知识描述,即识别场景中的物体、属性、关系、动作等语义要素,从而赋予自主智能系统环境感知能力。鉴于自主智能系统工作场景复杂、动态性强、响应要求迅速,但计算资源受限、成像质量难以保证等特点,如何实现准确、鲁棒且泛化性强的视觉场景语义解析是提升自主智能系统环境感知能力、自制能力和执行能力的关键难题。
本书主要从理论与方法的角度,系统地介绍了场景语义解析的基本概念、主要挑战、前沿方法,以及在典型自主智能系统上的应用等内容,旨在为广大读者提供一本全面而深入的专著,以满足科研实践与人才培养需求。本书适合作为相关领域科研人员、工程师及相关专业学生的指导书或参考书。
全书共 8章。第 1章阐述本书研究背景及意义,介绍视觉环境感知中场景语义解析的关键技术、国内外研究进展以及本书的研究内容。第 2章针对场景语义解析模型在信息传递过程中存在不可避免的信息损失问题,介绍本书提出的基于“全息”网络架构的网络信息流传递机制。第 3章针对场景语义解析模型在多维特征提取时面临的多尺度特征轻量提取与去冗表征问题,介绍本书提出的基于邻域解耦-耦合的空间多尺度表征学习算法。第 4章针对场景语义解析模型在知识表征利用过程中,高维知识的低效挖掘与信息过载问题,介绍本书提出的基于频域学习的知识空间拓展挖掘与高效融合算法。第 5章针对场景语义解析模型在高分辨率语义生成阶段面临的高级语义与精细定位的矛盾统一问题,介绍本书提出的基于幅-相感知的语义-定位解耦表征算法。第 6章针对场景语义解析模型在训练优化时遭受的数据依赖和网络退化问题,介绍本书提出的基于结构重参数化的训练动态优化与泛化能力提升算法。第 7章针对实际自主智能系统中特定硬件平台的计算特性,归纳总结高效深度网络模型设计方法、部署策略,介绍相关典型应用案例。第 8章对全书内容进行总结并对场景语义解析未来的发展趋势与研究热点进行展望与讨论。

本书为单色印刷,部分图片显示效果欠佳,读者可扫描二维码查看彩色图片。

本书的主要内容来自闫卿卿、李树的博士学位论文,由陈启军、刘成菊、闫卿卿汇总整理。本书中的研究得到了国家自然科学基金重点项目 62333017、62233013的资助。
在此谨向对本书撰写提供支持与帮助的科研单位、研究人员,以及提出宝贵意见的专家、学者表示诚挚的谢意。
限于作者水平,书中错误与疏漏在所难免,恳请各位读者不吝指正。
作者 
2024年 12月 20日