论文流程理解

打算用tensorflow复现RACNN，但是中间有几步总是觉得难以实现，说一下我对全程的理解，希望能有人帮忙看看是否有误
1、用普通VGG进行分类，微调，直到分类效果不再提升
2、固定住VGG参数，输出最后一层卷积层的输出到APN里面，输出三个用于定位的参数，
3、裁剪图片，用1固定住的VGG继续做分类，将公式8计算出来的loss作为APN的loss（实际是由VGG计算出来的）进行优化，改变三个定位参数
4、重新循环2,3直至VGG分类效果不再提升
5、循环1234