物体检测R-CNN介绍

R-CNN

R-CNN的贡献主要是第一次将CNN引入到目标检测中，主要解决两个问题：

速度：经典的目标检测算法使用滑动窗法依次判断所有可能的区域。R-CNN则预先提取一系列较可能是物体的候选区域，之后仅在这些候选区域上提取特征，进行判断。
训练集：经典的目标检测算法在区域中提取人工设定的特征（Haar，HOG）。R-CNN则需要训练CNN进行特征提取。可供使用的有两个数据库：
- 一个较大的识别库（ImageNet ILSVC 2012）：标定每张图片中物体的类别。一千万图像，1000类。
- 一个较小的检测库（PASCAL VOC 2007）：标定每张图片中，物体的类别和位置。一万图像，20类。

R-CNN的检测过程主要分为四个步骤：

其整体识别流程如下图所示：

选择性搜索是一种用于目标检测的区域推荐算法。它的设计速度快，召回率高。它是根据颜色、纹理、大小和形状的兼容性，计算相似区域的层次分组。

为尽可能不遗漏候选区域，上述操作在多个颜色空间中同时进行（RGB,HSV,Lab等）。在一个颜色空间中，使用上述四条规则的不同组合进行合并。所有颜色空间与所有规则的全部结果，在去除重复后，都作为候选区域输出。

将每个region都wrap到固定的大小（227×227）。此处scale时需要注意：外扩的尺寸大小，形变时是否保持原比例，对框外区域直接截取还是补灰。

将所有变形后的region输入到CNN中，网络结构为Hinton 2012年在Image Net上的分类网络AlexNet，其网络结构为：

AlexNet使用了两块GPU训练神经网络。此网络提取的特征为4096维，之后送入一个4096->1000的全连接(fc)层进行分类。学习率0.01。
训练的过程分为两步：

pre-training 使用ILSVRC 2012的数据集进行有监督的分类训练（迁移训练），初步训练出CNN每层的参数，输出1000维类别标号；
fine-tuning 使用PASCAL VOC2007数据集，将第2步训练出来的CNN模型替换最后一层，变为N+1个输出，采用SGD方法训练最后一层参数。

precision：对于某张图片计算object C在图片上的查准率
- 某图片上C识别正确的个数/ 某图片C的总个数
- $precision_{c} = N(TruePositives)_{c} / N(TotalObjects)_{c}$
average precision：对于object C在多张图片上的查准率
- 每张图片的precisionc的和 / 含有object C的图片的数目
- $averagePrecision_{c} = sum(precision_{c}) / N(TotalImages)_{c}$
mean average precision:对整个数据集的多个object的平均查准率
- 每个objectc的average precision / 总的object数目
- $meanAveragePrecision = sum(averagePrecision_{c}) / N(classcs)$

accuracy：预测正确的样本数 accuracy = (TP + TN) / (TP + FP + FN + TN)

precision：预测为正的样本中，正确预测的比例 precision = TP / (TP + FP)

recall：正样本中，正确预测的比例 recall = TP / (TP + FN)

F1: precision和recall的综合指标 F1 = 2×(precision / (precision + recall))

在R-CNN中，对每一类目标，使用一个线性脊回归器进行精修。正则项 $\lambda=10000$ 。输入为深度网络pool5层的4096维特征，输出为xy方向的缩放和平移。判定为本类的候选框中，和真值重叠面积大于0.6的候选框为正样本。