zoukankan
html css js c++ java
ocr之splitLine()函数
ocr之splitLine()函数
该函数的功能是为实现对每行的文字分段而设计的。流程如下:
一. 针对时间格式,提前取出来
def processTimeStr(timeFound,lineText):
该函数是针对每行的文本lineText中的时间格式,提前取出来
其中,用正则表达式匹配,匹配到各种时间格式就标记为
elemList[i]['Delete'] = 1
,然后判断有Delete键的字符就删除,这样elemList就剩下去掉时间格式之后的文本。
二. 删除时间以及英文单词之间的以外的空格
三. 先把上下多行有重叠部分的摘出来,这个不必进行分段,默认为同段
四. 对于非重叠的,则进行分段,依据各字符之间的间隔的不同作为分组条件
五. 求gap,先摘出所有字符紧挨着的gap,赋予groupId = -1,剩余的不紧挨的,按gap排序,然后一次赋值0 1。。。
六. 根据gapList中的groupId进行分组,按照顺序从左到右,遇到groupId不同的,就是分组边界,最后,再按照每组中的第一个元素的x坐标,进行组排序
查看全文
相关阅读:
CSS3中的Transition属性详解
jq 全选/取消效果
多维数组问题 int (*a)[] int []
C语言输入多组问题~ungetc回退字符到stdin
2015-12-14重启博客之旅
转载~kxcfzyk:Linux C语言多线程库Pthread中条件变量的的正确用法逐步详解
lsof 一切皆文件
转载自~浮云比翼: 不忘初衷,照顾好自己。
转载自~浮云比翼:Step by Step:Linux C多线程编程入门(基本API及多线程的同步与互斥)
梳理回顾
原文地址:https://www.cnblogs.com/monkey-moon/p/9260762.html
最新文章
嵌入式系统 Boot Loader 技术内幕
Makefile:xxx:***混合的隐含和普通规则。停止
Linux minicom USBCOM
The first No OS program (Mini2440)
Linux operator(often adding)
添加 fedora yum 源
虚拟机内无法连接网络
快速排序法
C++ 实验七 继承与派生
C语言基础_宏定义
热门文章
iOS-网易彩票
iOS-画板程序(手势操作无)
iOS-截图和把截图封装成一个方法
ios-裁剪加裁剪描边加把裁剪封装成一个方法类
滚动条使用的触发事件
人民币符号的 缩写
JS实现图片预加载无需等待
jQuery停止动画和判断是否处于动画状态
我对CSS vertical-align的一些理解与认识(一)
小tip: 使用CSS将图片转换成模糊(毛玻璃)效果
Copyright © 2011-2022 走看看