IncepText算法笔记

zoukankan html css js c++ java

IncepText算法笔记

源头：场景文本经常受到aspect ratio, scal, and orientation的影响

为了解决这个问题，提出了inceptext，主要贡献在于添加了inception-text module和deformable PSROI pooling来解决多角度的文本检测。

The Proposed Method

借鉴于FCIS（语义分割算法）

网络结构图如下：

首先，去掉了Res stage5降采样操作，目的是增加该部分输出特征图的分辨率，这种操作在分割算法中比较常见。其次为了提高小文本区域的检测效果，网络将深层特征和浅层做了融合，具体而言是Res stage5、Res stage4的特征分别和Res stage3的特征做融合。

融合之后有了两个输出，分别接上inception-text module。

核心部分之一的inception-text module

跟inception v3的结构类似，蓝色的1*1conv为了减少通道数，三个不同大小的卷积核：1*1，3*3，5*5是拿来解决different scales of text。紫色和橙色部分是1*n的卷积层followed by a n*1的卷积层（将一个n*n的卷积层分解为两个，计算量减小且感受野相同）。

与inception v3不同的是，在分支的最后还加入了可形变的卷积核（空间采样信息被增强）来适应多角度的文本。这种变形受输入特征的制约，因此当输入文本带角度时，感受野会调整，自动适应。

核心部分之一的deformable PSROI pooling

位置敏感属性在分类和定位任务中编码了有用的空间信息。

The deformable PSROI pooling is deﬁned as:

GroundTruthandLossFunction

the pixels in the quadrilateral are all positive, while the left pixels are negative.

loss function:

论文所做的消融实验说明了提出的idea的效果

查看全文

相关阅读:
python基础-sort和sorted
python基础-网络基础知识和网络编程
 python基础05--字符串常用方法
 python基础14-内置函数和匿名函数
 python基础13-迭代器和生成器
 python基础10——函数初识
 python基础09_文件操作
 python基础03——数据类型string
python基础02—raw_input()和input()的区别
 R语言-变量聚类

原文地址：https://www.cnblogs.com/ywheunji/p/11789116.html