zoukankan      html  css  js  c++  java
  • ReCaptcha——基于验证码的数据挖掘

    验证码发展历史

    验证码(CAPTCHA)是“Completely Automated Public Turing test to tell Computers and Humans Apart”(全自动区分计算机和人类的图灵测试)的缩写,是区分用户是机器或者是人的公共全自动程序。
      早期的互联网是没有验证码的,由于搜索引擎的出现和网络营销的兴盛,导致了机器可以通过任何一个网站的注册的程序疯狂注册,通过垃圾邮件或者垃圾评论轰炸网民的眼球。作为免费邮件提供商,它们希望更多用户注册免费邮箱来增加用户注册数量。同时它们的免费邮箱又恰好是垃圾邮件的最爱,每天都耗费大量的资源来阻止的垃圾邮件,都来自自己的服务器。因此如何解决人机辨识的问题就迫在眉睫。
      通过专家的设计,验证码应运而生,虫虫营销助手,刚开始计算机的辨识技术还很落后,对于经过扭曲,污染的文字无法识别。而人就能轻松识别。简单而绝妙的设计,计算机产生一个随机字符串,然后经过程序处理把这个字符串生成图像进行污染和扭曲,再在前端显示出来。凡能识别出来的就是人类。
      刚开始的验证码比较简单,主要以4个字符串为主,字符串在图片中的位置中规中矩,有些机器通过字符串显示在图片上的一些客观规律,也非常容易破解验证码。由于机器的辨识能力在不断提高。中文验证码,8个字符或者以上的验证码,扭曲和污染非常严重的验证码在各大网站都频频出现(有时候人都不能识别)。小小的验证码也充满无穷商机,目前有些公司提供人工识别验证码服务。客户端的验证码通过api把图片提交给他们公司,公司安排人工(通常找一些人力成本相对低的国家的工人,这样导致一些特殊字符他们识别不了,例如中文等)识别,识别完后通过api返回给客户端。道高一尺,魔高一丈验证码的技术随着网络的发展还在不停地变化,但愿验证码的发展不要通过牺牲用户体验来换取。

    验证码为什么要做成有两个单词这样,一个单词不就够了吗?

    大家可以了解下,有个项目叫reCAPTCHA(http://baike.baidu.com/view/1944705.htm

    “CAPTCHA”的技术在2000年被发明时是为了防止垃圾邮件和不必要的骚扰,后来发明者又寻找到了使人的计算能力得到更有效利用的方法,发送两个单词,其中一个单词用来确认输入结果,另外一个机器无法识别的字符则随机发送给五个人,直到他们都输入正确才确认这个单词。这也是我们有时明明输错了最终也能登陆的原因。2009年谷歌收购了这家做验证码公司reCAPTCHA,并将其技术用于图书扫描项目,自此全世界的网民都沦为谷歌的免费打字员。。(因为众包的力量,这项技术每年能为谷歌省下十多亿美元。 

  • 相关阅读:
    shell-脚本_系统监测
    shell-脚本_防火墙规则的简单应用
    shell-命令_find
    shell-命令_cut
    shell-条件测试语句_test
    Error:java: 不再支持源选项 5。请使用 6 或更高版本。
    android项目删除recycleview相对应的数据库数据后闪退
    大作业--社团管理系统总结
    北京地铁出行路线代码分析
    北京地铁出行路线规划设计
  • 原文地址:https://www.cnblogs.com/xianghang123/p/3084670.html
Copyright © 2011-2022 走看看