一、引言
通过前两篇文章
已经得到了各个信息区域的图像。只剩最后一步:识别图像上的文字信息。
本次对于文字的识别,采用了tesseract-ocr识别。
二、tesseract-ocr的使用
之前采用调用tesseract的方式进行识别,但发现效率太低,故采直接采用C#代码进行识别。
private string GetText(Bitmap img)
{
using (var engine = new TesseractEngine(@"C:FileshcifileTesseract-OCR essdata", "chi_sim", EngineMode.Default))
{
var image = img;
{
using (var pix = PixConverter.ToPix(image))
{
using (var page = engine.Process(pix))
{
return page.GetText();
}
}
}
}
}
该函数返回识别结果的字符串
其中
var engine = new TesseractEngine(@"C:FileshcifileTesseract-OCR essdata", "chi_sim", EngineMode.Default))
TesseractEngine有3个参数分别是tessdata数据路径,要识别的语言,识别模式。
这里采用chi_sim即识别中文,识别模式为默认EngineMode.Default。
三、tesseract-ocr识别身份证信息
为了提高识别速度以及效果,将前两步得到的各个区域的图像进行去噪以及二值化处理。
public static Image<Gray, byte> BinImg(Image<Bgr, byte> img,int blockSize,int val)
{
return img.Convert<Gray, byte>().SmoothGaussian(5).ThresholdAdaptive(new Gray(255),
AdaptiveThresholdType.GaussianC,
ThresholdType.Binary,
blockSize,
new Gray(val));
}
> 采用高斯
模糊、自动阈值二值化,去除身份证背景条纹,只保留文字信息。
通过测试发现blockSize = 15,val = 0.00111倍的身份证号区域的面积效果较好。
Bitmap id = Util.BinImg( Util.Rote(img, idRect),15,(int)(0.00111 *idArea)).Bitmap;
Bitmap address = Util.BinImg(Util.Rote(img, addressRect), 15, (int)(0.00111 *idArea)).Bitmap;
Bitmap date = Util.BinImg(Util.Rote(img, dateRect), 15, (int)(0.001111 *idArea)).Bitmap;
Bitmap sex = Util.BinImg(Util.Rote(img, sexRect), 15, (int)(0.00111 *idArea)).Bitmap;
Bitmap name = Util.BinImg(Util.Rote(img, nameRect), 15, (int)(0.00111 *idArea)).Bitmap;
最后
调用 private string GetText(Bitmap img)
即可识别出图片上的文字信息。
由于生份证号码的识别效果较好,所以对于性别以及出生日期可以结合生份证号的识别结果与图像进行结果处理。
四、识别结果
附一: 身份证号码正确性验证
private bool CheckIDCard(string idNumber)
{
long n = 0;
if (long.TryParse(idNumber.Remove(17), out n) == false
|| n < Math.Pow(10, 16) || long.TryParse(idNumber.Replace('x', '0').Replace('X', '0'), out n) == false)
{
return false;//数字验证
}
string address = "11x22x35x44x53x12x23x36x45x54x13x31x37x46x61x14x32x41x50x62x15x33x42x51x63x21x34x43x52x64x65x71x81x82x91";
if (address.IndexOf(idNumber.Remove(2)) == -1)
{
return false;//省份验证
}
string birth = idNumber.Substring(6, 8).Insert(6, "-").Insert(4, "-");
DateTime time = new DateTime();
if (DateTime.TryParse(birth, out time) == false)
{
return false;//生日验证
}
string[] arrVarifyCode = ("1,0,x,9,8,7,6,5,4,3,2").Split(',');
string[] Wi = ("7,9,10,5,8,4,2,1,6,3,7,9,10,5,8,4,2").Split(',');
char[] Ai = idNumber.Remove(17).ToCharArray();
int sum = 0;
for (int i = 0; i < 17; i++)
{
sum += int.Parse(Wi[i]) * int.Parse(Ai[i].ToString());
}
int y = -1;
Math.DivRem(sum, 11, out y);
if (arrVarifyCode[y] != idNumber.Substring(17, 1).ToLower())
{
return false;//校验码验证
}
return true;
}