Andrew NgML第十九章应用举例：照片OCR（光学字符识别）

Andrew NgML第十九章应用举例：照片OCR（光学字符识别）

1.问题描述与 OCR pipeline

图1.图像文字识别流水线

首先是输入图片-》进行文字检测-》字符分割-》字符识别。

这些阶段分别需要1-5人这样子。

2.滑动窗口

主要讲滑动窗口分类器。

图2.滑动窗口检测

对于行人检测来说，矩阵框有长宽相同的比例，虽然具体的数值会变化，但比例不变；但是对于文字检测来说，文字酷块的比例大小是不同的。

对滑动窗口来说，首先有一个窗口从图片左上角开始检测，每滑动到一个地方就将图片切割，并调整为（82*36）并输入进滑动窗口检测器中；

每次移动的距离称为步长；直到将图片扫描完毕为止；

一次扫描完之后，增加矩形框大小，再次进行扫描分类。

图3.文字检测

对图像进行窗口扫描之后，有文字的部分会被标为白色，色度的高低表示是否有文字的置信度。

但图片中也有一些文字未被检测出来。

可将文字部分剪切出来，进行下一步的工作。

图4.一维滑动窗口进行字符分割

对于左边的样本，窗口中能够有一个直线，为正样本，即可以分割；进行有监督学习

对于右边的样本，y=0，不可分割。此时滑动窗口只遍历一行即可，直到将所有的字符分开。

图5.图像OCR流水线

1.首先进行文字检测；

2.进行字符分割；

3.进行字符识别。

3.获取大量数据和人工数据

图6.人工数据合成

左图中是真实的从图片中获取的数据；右图是通过人工合成的，其中的字体是从网上下载的，并通过仿射等一系列技术形成图片。

但是如果合成的不好，那么会对其产生影响。

图7.对数据进行扰乱

左边的A是从真实图片中获取的，可以通过对A进行distortion来获取更多的数据集。

一个很好的例子就是语音识别，对同一个语音，加入嘈杂银、背景音、对音轨进行操作等，以此来扩充数据集，生成额外的标注样本。

图8.应该添加什么样的失真

对于可行的添加失真的方法，应该是具有代表性的，有可能在测试集中出现的。

并且给出了一个并不是可行的失真方法，比如对图像加入像素级的噪声，这通常对识别是没有帮助的。

图9.对获取更多数据的一些讨论

1. 首先在扩大数据集之前需要确定分类器是低偏差的，如果是高偏差那么就需要先增加特征数量或者是增加神经网络中隐藏层的单元数量。

2.如果要获得10倍的数据量需要多少工作呢？获取数据量的渠道：

人工数据合成、自己标记数据、进行众包。

那么在解决机器学习遇到的问题时，重要的两点就是：

1.利用学习曲线判断增加数据量是否有用；

2.如果是需要增加数据量，那么就会想如果增加10倍的数据量需要花多少工作，

4.天花板分析：下一步工作的 pipeline

查看全文

相关阅读:
Atitit 计算机的组成与设计目录 1. 计算机系统是由硬件系统和软件系统两大部分组成。 1 1.1. Cpu（alu+cu ） 1 1.2. 存储内存外村 1 1.3. Io设备鼠标
 atitit 软件框架类库设计的艺术.docx 目录 1. index 1 2. 第2章设计api的动力之源 14 2 2.1. .1 分布式开发 14 2 2.2. 2.2 模块化应用程序 16
Atitit 信息检索之音乐检索实践艾提拉注目录 1. 常规检索歌手歌名 1 1.1. 年代检索 1 1.2. 歌词检索（可以依靠web 1 1.3. 哼唱检索原曲检索（可以使用酷
 Atitit 信息检索文档资料的查询与检索目录 1. 索引法 1 1.1. 名字placeholder索引 1 1.2. 文本txt索引 1 1.3. 索引集合包zip 1 1.4. 文件名
 Atitit 微服务实践艾提拉著微服务主要解决几个问题负载均很目录 1. 微服务的模式 http请求层 vs服务层 1 1.1. Http vs 服务层优缺点 1 2. 实现技术 2
Atitit SpringCloud 使用总结目录 1.1. 启动一个服务注册中心EurekaServer 1 1.2. 三、创建一个服务提供者 (eureka client) 2 1.3. 创建
 Atitit 文档资料处理重要类库与工具跨语言api和第三方api跨语言类库工具大概功能功能 Curl httpclient 文件上传下载数据传输rest doctotext.exe
Atitit 网盘使用法艾提拉著目录 1. 需要解决几个问题 2 1.1. 多关键词搜索的问题使用every索引解决 2 1.2. 重要文具类索引使用分类索引日志 crm类增加000前缀
 Atitit 信息化数据采集与分析解析技术 处理技术 爬虫与http rest json xml h5解析 db数据库 mail协议与处理 数据压缩与解压 数据处理 文本处理
 Atitit mis 管理信息系统概论艾提拉著目录 1. 互联网三大定律 2 1.1. 摩尔定律和 2 1.2. 吉尔德定律电脑及网络宽带资源成为重要免费资源 2 1.3. 梅特卡夫定律用户

原文地址：https://www.cnblogs.com/BlueBlueSea/p/9513701.html

Andrew NgML第十九章应用举例：照片OCR（光学字符识别）

1.问题描述与 OCR pipeline

2.滑动窗口

3.获取大量数据和人工数据

4.天花板分析：下一步工作的 pipeline