zoukankan      html  css  js  c++  java
  • 让网络机器人看起来像人类用户

    1.修改请求头

    HTTP的请求头是在你每次向网络服务器发送请求时,传递的一组属性和配置信息。虽然网站可能会对HTTP请求头的每个属性进行“是否具有人性”的检查,但是我发现通常真正重要的参数就是User-Agent。记得把User-Agent设置成不易被引起怀疑的内容。

    2.处理cookie

    网站会用cookie跟踪你的访问过程,如果发现了爬虫异常行为就会中断你的访问,比如特别快地填写表单,或者浏览大量页面。芮然这些行为可以通过关闭并重新连接或改变IP地址来伪装,但如果cookie暴露了你的身份,再多努力也是白费。

    有一些浏览器插件可以为你显示访问网站和离开网站时cookie是如何设置的,如:EditThisCookie。(python网络数据采集,12章)

    3.时间就是一切

    如果条件允许,尽量为每个页面访问增加一点时间间隔,time.sleep(3)。拖垮网站是一件不道德的事情:是彻头彻尾的错误。所以请控制你的采集速度!

  • 相关阅读:
    [LeetCode] 240
    [LeetCode] 169
    [LeetCode] 28
    [LeetCode] 27
    [LeetCode] 14
    [LeetCode] 9
    [LeetCode] 7
    [LeetCode] 2
    数据库开发规范
    Mysql优化
  • 原文地址:https://www.cnblogs.com/ningjing213/p/13947462.html
Copyright © 2011-2022 走看看