OSFormer: One-Stage Camouflaged Instance Segmentation with Transformers

2207.02255.pdf

[2022][ECCV]OSFormer_Chinese.pdf

GitHub - PJLallen/OSFormer: Official Implementation of ECCV2022 paper "OSFormer: One-Stage Camouflaged Instance Segmentation with Transformers"

ECCV 2022 华科&ETH提出首个用于伪装实例分割的一阶段Transformer的框架OSFormer!代码已开源!

在本文中,作者提出了OSFormer,这是第一个用于伪装实例分割(CIS)的一阶段Transformer框架。OSFormer基于两个关键设计。

首先,通过引入位置引导查询和混合卷积前馈网络,作者设计了一个**位置感知Transformer(LST)**来获取位置标签和实例感知参数。

其次,作者开发了一种从粗到精的融合(CFF),以合并来自LST编码器和CNN主干的不同上下文信息。耦合这两个组件使OSFormer能够有效地混合局部特征和长期上下文依赖,以预测伪装实例。

与两阶段框架相比,本文的OSFormer在不需要大量训练数据的情况下达到了41%的AP,并实现了良好的收敛效率。

Untitled

Method

Untitled

本文提出的OSFormer包括四个基本组件:

  1. 用于提取对象特征表示的CNN主干
  2. 利用全局特征和位置引导查询生成实例感知嵌入的位置感知Transformer(LST)
  3. **粗到细融合(CFF)**用于集成多尺度低和高级别特征并产生高分辨率掩码特征
  4. 用于预测最终实例掩码的动态伪装实例归一化(DCIN)

CNN Backbone

给定输入图像 $I∈\mathbb{R}^{H×W×3}$,走着使用来自CNN主干的多尺度特征 $\{C_i\}_{i=2}^5$(即ResNet-50)。为了降低计算成本,作者直接将最后三个特征映射($C_3,C_4,C_5$)展平并连接成一个256个通道的序列 $X_m$作为LST编码器的输入。对于 $C_2$ 特征,将其作为高分辨率低层特征输入到CFF模块中,以捕获更多伪装的实例线索。