文章介绍如何训练 end-to-end (端到端, 输入不需要处理, 输出即为所得), pixels-to-pixels (像素级的映射) 的卷积网络用于 semantic segmentation (语义分割).

key insignt: 构建 fully convolutional network (全部操作为卷积的网络). 回忆下卷积神经网络, 卷积层参数的维数不与输入和输出相关, 比如定义一个 5x5 的 filter. 所以如果是 fully convolutional network, 网络输入的维数是任意的, 包括 inference 和 training 的过程. 当然 training batch 里, 图像的大小要保持一致.

文章内容:

  • 定义 the space of fully convolutional network (什么属于全卷积), 解释了其作为 dense prediction 的理由.
  • 将 AlexNet[], VGG net[], GoogLeNet[] 学习到的权重 (representations) fine-tuning 以适用于语义分割.
  • 提出新的结构, 结合深层的, 粗糙的语义信息和浅层的图像内容信息得到更准确的分割.

Introduction

Image task, 可以理解为从全局到局部再到像素级的划分:

  • classification
  • detection
  • localization
  • pixel-wise prediction

文章作为语义分割初次尝试的内容: 1. pixelwise prediction, 不需要 pre- and post-processing, e.g. proposals, random fields refinements 2. supervised pre-training, 基于之前做分类的工作来 fine-tuing.

Transfer learning 使用用于分类的网络已经迁移到(tranfer)到目标识别, 目标检测等问题. fine-tuning

Fully convolutional networks 深度学习复兴(2006)之前已经有, 之后也有. (Fully convolutinal training is rare, but used effectively by T, although they do not exposit on or analyze this method.) 婉转提及, 似褒实贬.

Dense prediction 实际上已经有使用卷积网络来做语义分割, 结合本文的特点就要批驳其它算法的不足. 1) 使用分类网络来fine-tune, 网络大, capacity 不一般; 如果有人用transfer learning 则他们不是 end-to-end; 2) fully convolutional for arbitrary input size, 所以不是 patchwise training, 也不需要 input shifting and output interlacing; 3) 不需要后处理.