好久没更新blog了;工作任务紧,本来是双休,结果变成了单休;唯一个星期天,还要补充睡眠...
这个星期的事了;早上迟到了,因为没赶上车;一到公司,头头就过来找我,我还以为会说我迟到的事儿,结果不是,原来他要我做一个文字识别的小程序;
因为信息源的关键信息被更新为gif图片了,原来是文本,所以很好处理,但是变成了图片后,就麻烦了;难怪他急忙找到我;
看了看源图片,发现比较好处理,因为是未变形的图形,毕竟要用图片显示文字具体信息,如果加入大量干扰码和特殊变形体会严重影响阅读,所以;这样的图片可以100%识别,就用原始匹配的算法.经过一个下午的努力,下班时加了10分钟班---搞定了;
虽然搞定了这个来源的图片文字识别,但是如果万一来源图片做了变形怎么办?我觉得这个问题很难解决,象腾讯网站的登陆,竟然都用上了中文字符,加了不少干扰码;要正确识别实在是太难了..
前阵子到01cn.net论坛上看了看几位高手大哥的讨论,是关于图片验证码识别的,savetime 这个DX也拿出当年的'小作'一个,车牌识别;
自己对这个图形识别,还是一个超级门外汉;星期六到网上找了一通资料,最后忙到这个时候"5:35:08"做了一个初级的ocr程序,源码奉上,仅供娱乐;
这个程序算法和功能和公司开发的那个有天壤之别.这个程序的算法很简单,有兴趣朋友可以给我留言讨论.
界面图:
源码下载
2005年7月24日5:42:26