zoukankan
html css js c++ java
ocr之splitLine()函数
ocr之splitLine()函数
该函数的功能是为实现对每行的文字分段而设计的。流程如下:
一. 针对时间格式,提前取出来
def processTimeStr(timeFound,lineText):
该函数是针对每行的文本lineText中的时间格式,提前取出来
其中,用正则表达式匹配,匹配到各种时间格式就标记为
elemList[i]['Delete'] = 1
,然后判断有Delete键的字符就删除,这样elemList就剩下去掉时间格式之后的文本。
二. 删除时间以及英文单词之间的以外的空格
三. 先把上下多行有重叠部分的摘出来,这个不必进行分段,默认为同段
四. 对于非重叠的,则进行分段,依据各字符之间的间隔的不同作为分组条件
五. 求gap,先摘出所有字符紧挨着的gap,赋予groupId = -1,剩余的不紧挨的,按gap排序,然后一次赋值0 1。。。
六. 根据gapList中的groupId进行分组,按照顺序从左到右,遇到groupId不同的,就是分组边界,最后,再按照每组中的第一个元素的x坐标,进行组排序
查看全文
相关阅读:
DICOM:DICOM3.0网络通信协议
Maven使用—拷贝Maven依赖jar包到指定目录
Spring Boot使用JavaMailSender发送邮件
SpringBoot配置Email发送功能
MariaDB 安装与启动 过程记录
ESXi与Linux主机配置syslog日志上传远程服务器
Linux--忘记MySQL密码的解决方法和输入mysqld_safe --skip-grant-tables &后无法进入MySQL的解决方法
centos killall安装
centos安装lspci工具
oracle创建job和删除job
原文地址:https://www.cnblogs.com/monkey-moon/p/9260762.html
最新文章
Windows 下使用 工具修改文件的 时间
CentOS 安装 Ansible 以及连接Windows server的办法
[wiki] Unix like
[硬件]超能课堂(181):我们为什么需要4+8pin CPU供电接口?
Windows 与Office 镜像的区别
Go 连接 mysql 数据库的简单测试.
2015年旧闻 CNNIC发布伪造CA证书
WSL、Git on Windows 、Putty等的创建的rsa秘钥与连接linux的使用。
[官网]Using PuTTY
Windows 通过批处理自动执行 linux服务器上面命令的办法
热门文章
Oracle SQLULDR2 以及 SQLLDR 进行导入导出的功能说明
关于DCMTK3.6.0源代码编译的总结
[原创]DELPHI木马DIY之生成服务端
DICOM:Ubuntu14环境下安装dcm4chee+oviyam2.1
DICOM:DICOM标准学习路线图(初稿)
DCMTK开源库的学习笔记4:利用ini配置文件对dcm影像进行归档
DICOM医学图形处理:storescp.exe与storescu.exe源码剖析,学习C-STORE请求(续)
DICOM医学图像处理:storescp.exe与storescu.exe源码剖析,学习C-STORE请求
dicom通讯的工作方式及dicom标准简介
DICOM:DICOM3.0网络通信协议(续)
Copyright © 2011-2022 走看看