图像语义分割作为计算机视觉领域的核心任务,旨在为图像中的每个像素赋予语义标签,广泛应用于自动驾驶、医学影像分析等场景。近年来,增量少样本语义分割(IFSS)因其在动态环境中逐步学习新类别且仅需少量标注数据的能力备受关注。然而,该技术面临两大关键挑战:其一是语义偏移,即旧类别与背景在增量学习过程中发生混淆,导致模型对历史知识的错误遗忘;其二是语义不完整性,即新类别因样本稀缺导致特征表达不充分,难以形成完整的语义表示。这些问题严重制约模型在实际场景中的鲁棒性,甚至可能引发安全风险,例如自动驾驶系统因错误识别道路标志造成事故。
针对上述挑战,本文提出了一种基于因果推理的框架,通过系统性解耦语义偏移与不完整性的因果关系提升模型性能。该方法包含两大创新模块:因果干预模块(CIM)采用前门调整技术阻断背景变量对旧类别的干扰,通过原型注意力机制动态更新旧类别原型权重,生成无偏预测结果;原型细化模块(PRM)利用元学习从旧类别中提取跨类别依赖知识,指导新类别原型的语义补全,并结合情景学习模拟多阶段增量过程以增强模型适应性。实验表明,该方法在PASCAL-VOC 2012和ADE20k数据集上显著优于现有技术,新类别的5-shot/1-shot mIoU分别提升6.3%和3.8%,旧类别抗遗忘能力提升12.5%,验证了所提方法的有效性。
本文的原创性体现在理论框架与方法设计的双重创新。首次将结构因果模型(SCM)引入IFSS任务,揭示语义偏移与不完整性的因果机制,为模型设计提供理论支撑;提出的CIM与PRM模块形成系统性解耦方案,前者通过干预操作消除背景混淆效应,后者利用元知识补全新类别语义。为增量小样本场景下的模型性能提升提供了可解释、可验证的解决方案,对自动驾驶系统升级、医疗影像动态标注等工业场景具有重要应用价值。
(第一作者:巫义锐为河海大学计算机与软件学院青年教授、硕士生导师)
原文题目为:“Deconfound Semantic Shift and Incompleteness in Incremental Few-shot Semantic Segmentation”,于2025年2月发表在 The 39th Annual AAAI Conference on Artificial Intelligence(AAAI)上,DOI:10.1609/aaai.v39i8.32915。AAAI属于中国计算机学会(CCF)推荐A类会议,是人工智能领域国际顶级会议之一,该会议研究方向聚焦人工智能前沿领域,包括智能体与多智能体系统、推理与认知架构、生成模型与可解释性、具身智能与硬件协同。