zoukankan      html  css  js  c++  java
  • (参考)爬虫4-爬虫引起的问题以及robots协议

    网络爬虫引发的问题

    网络爬虫的尺寸:

    小规模,数据量小,爬取速度不敏感,使用Requests库,应用占比90% 中规模,数据规模较大,爬取速度敏感,Scrapy库 大规模,搜索引擎、爬取速度关键,定制开发
    爬取网页 玩转网页 爬取网站 爬取系列网站 爬取全网

    网络爬虫的‘骚扰’,对于web服务器有骚扰

    网络爬虫的法律风险,服务器上的数据有产权归属

    网络爬虫的泄露隐私

    限制网络爬虫:

    1、来源审查:判断user-agent字段,检查来访HTTP协议头

    user-agent域,只响应浏览器或友好爬虫的访问

    2、发布公告:Robots协议,告知爬取策略。

    Robots协议介绍:爬取策略,在网站根目录下的robots.txt文件。

    基本语法:user-agent *

    可查看http://www.baidu.com/robots.txt

  • 相关阅读:
    E
    C
    航空母舰-03
    航空母舰-02
    航空母舰-01
    新概念4-30
    html
    翁凯-编程学习方法
    机器学习Ng-02
    民法-钟秀勇-导学
  • 原文地址:https://www.cnblogs.com/rayshaw/p/8563715.html
Copyright © 2011-2022 走看看