前言
最近写了个自动化脚本,会出现此类验证码,通过百度识图api和tesseract进行识别都不理想,在GitHub上找到该项目,经过训练精度已经达到90%左右,可用于生产环境中了。
项目地址: https://github.com/nickliqian/cnn_captcha/
准备
训练环境
根据样本数量选择配置,不一定非要用服务器,用笔记本跑了8小时左右准确率只有百分之十几,如果有性能较好的台式机完全够用。
本次样本约2W,其中有不少重复数据样本,用服务器跑了2小时左右准确率已经到达80~90%。
实例:计算型(原独享) sn1系列 II8核 16GB I/O 优化实例:I/O 优化实例 系统盘:高效云盘/dev/xvda40GB 公网带宽:5120Mbps按使用流量 CPU:8核 可用区:随机分配 操作系统:Linux64位Ubuntu 18.04 64位 内存:16GB
部署
项目部署文档: https://github.com/nickliqian/cnn_captcha/blob/master/README.md