1. OCR库:
a. pillow
b. tesseract:
Tesseract 是一个 OCR 库,目前由 Google 赞助(Google 也是一家以 OCR 和机器学习技术
闻名于世的公司)。Tesseract 是目前公认最优秀、最精确的开源 OCR 系统。
c. numpy:
具有大量线性代数 以及大规模科学计算的方法。因为 NumPy 可以用数学方法把图片表示成巨大的像素数组, 所以它可以流畅地配合 Tesseract 完成任务。
2. 处理格式规范的文字: