zoukankan      html  css  js  c++  java
  • east论文阅读笔记

    EAST( Efficient and Accurate Scene Text Detector)

    简洁的pipline

    FCN+nms

     前面的特征提取以及深浅层融合较容易理解,类unet结构

    网络输出一个score map 和 几何形状(可选四边形加角度RBOX和四坐标QUAD)

    score map是shrunk的GT(1维)

    RBOX输出是每个像素对于四个边的距离(4维)+ 角度

    QUAD是对于四个坐标的偏移(8维)

    score map用于后续nms

    标签生成:

    score map部分,把原始gt标签缩放0.3,得到一个核区域,positive area粗略地设定为核区域内的元素, 

    几何形状部分,RBOX对于positive area内的像素预测每个点对于四个边的距离;

    QUAD对于positive area内的元素预测每个像素对于四个坐标的offset.

    loss计算

     两部分,一个score map的loss,一个几何体的loss

    score map  的loss:

    为了提高速度,避免以往目标检测常用的平衡正负样本难易样本的策略,只使用类平衡交叉熵(实际使用dice loss的更多,收敛快)

    几何体的loss:

    (特殊性,文本的尺度变化比较大,直接用l1 loss会使得loss的偏差朝更大更长发展,为了兼具预测大尺度和小尺度的文本框,故采用Iou loss和尺度归一化的smooth l1 loss)

    RBOX采用iou loss

    QUAD采用尺度归一化的smooth l1 loss

    locality-aware NMS(局部感知)

    NMS之前还进行了行几何体的合并,基于临近的像素预测的几何体高度相关的假设,加权合并可以减小计算压力,按照score加权合并几何体,之后再进行普通的NMS

  • 相关阅读:
    log4net使用
    第二天 ado.net, asp.net ,三层笔记
    第一天上传我的前端基础笔记
    开通博客的第一天上传我的C#基础笔记。
    VS 星期作业 if else的应用 做一个受不受异性欢迎的小程序
    ****************VS编码操作实践******************
    VS基本学习之(变量与常量)
    VS的基本学习
    2016.4.10 重生
    【python之路3】if 语句
  • 原文地址:https://www.cnblogs.com/ywheunji/p/13308746.html
Copyright © 2011-2022 走看看