转载:http://www.cnblogs.com/yemuzi/p/3507162.html
1.介绍
据wikipedia介绍,验证码,全称为全自动区分计算机和人类的图灵测试(英语:Completely Automated Public Turing test to tell Computers and Humans Apart,简称CAPTCHA),是一种区分用户是计算机和人的公共全自动程序。在CAPTCHA测试中,作为服务器的计算机会自动生成一个问题由用户来解答。这个问题可以由计算机生成并评判,但是必须只有人类才能解答。由于计算机无法解答CAPTCHA的问题,所以回答出问题的用户就可以被认为是人类。目前多数网站用它来作为防止恶意注册,灌水,恶意攻击等的安全手段。
常见验证码样式:
2.案例分析
验证码识别流程:
举个现在很火的某网站验证码的例子:
特点:
前四个:字符重叠;1,4和2,3字符方向相同,字体单一,颜色单一,背景单一
后一个:横线干扰;字体大小单一
根据字符特点,按上面识别流程处理得到识别率:50%+
3.结论
1.目前该网站验证码最大的特点就是单一,字符重叠的结果不但没有达到很好的达到反robot的目的;对于某些字符,比如r,对人也形成很大的干扰,
2.建议采用:变形:,变字体等对人友善,机器难识别的样式