zoukankan      html  css  js  c++  java
  • 网络爬虫_网络爬虫的盗亦有道

    一、网络爬虫的尺寸

    1.爬取网页 玩转网页

      小规模,数据量小
      爬取速度不敏感
      Requests库
      使用比例:>90%

    2.爬取网站 爬取系列网站

      中规模,数据规模较大
      爬取速度敏感
      Scrapy库

    3.爬取全网

      大规模,搜索引擎
      爬取速度关键
      定制开发

    二、网络爬虫引发的问题

    1.网络爬虫的性能骚扰

      Web服务器默认接收人类访问
      受限于编写水平和目的,网络爬虫将会为Web服务器带来巨大的资源开销

    2.网络爬虫的法律风险

      服务器上的数据有产权归属
      网络爬虫获取数据后牟利将带来法律风险

    3.网络爬虫的隐私泄露

      网络爬虫可能具备突破简单访问控制的能力,获得被保护数据
      从而泄露个人隐私

    三、网络爬虫的限制

      1. 来源审查:判断User‐Agent进行限制
        检查来访HTTP协议头的User‐Agent域,只响应浏览器或友好爬虫的访问
      2. 发布公告:Robots协议
        告知所有爬虫网站的爬取策略,要求爬虫遵守

    四、Robots协议

    1.Robots协议

      Robots Exclusion Standard,网络爬虫排除标准
      作用:网站告知网络爬虫哪些页面可以抓取,哪些不行
      形式:在网站根目录下的robots.txt文件

    2.Robots协议基本语法

      # 注释,*代表所有,/代表根目录
      User‐agent: *
      Disallow: /

    3. 京东的Robots协议案例

    文件地址:https://www.jd.com/robots.txt
    文件内容

    User‐agent: * 
    Disallow: /?*
    Disallow: /pop/*.html
    Disallow: /pinpai/*.html?*
    User‐agent: EtaoSpider
    Disallow: /
    User‐agent: HuihuiSpider
    Disallow: /
    User‐agent: GwdangSpider
    Disallow: /
    User‐agent: WochachaSpider
    Disallow: /

    4. 真实的Robots协议

    1). https://www.sina.com/robots.txt

    User-agent: *
    Disallow: 

    2). http://www.baidu.com/robots.txt

    User-agent: Baiduspider
    Disallow: /baidu
    Disallow: /s?
    Disallow: /ulink?
    Disallow: /link?
    Disallow: /home/news/data/
    
    User-agent: Googlebot
    Disallow: /baidu
    Disallow: /s?
    Disallow: /shifen/
    Disallow: /homepage/
    Disallow: /cpro
    Disallow: /ulink?
    Disallow: /link?
    Disallow: /home/news/data/
    
    User-agent: MSNBot
    Disallow: /baidu
    Disallow: /s?
    Disallow: /shifen/
    Disallow: /homepage/
    Disallow: /cpro
    Disallow: /ulink?
    Disallow: /link?
    Disallow: /home/news/data/
    
    User-agent: Baiduspider-image
    Disallow: /baidu
    Disallow: /s?
    Disallow: /shifen/
    Disallow: /homepage/
    Disallow: /cpro
    Disallow: /ulink?
    Disallow: /link?
    Disallow: /home/news/data/
    
    User-agent: YoudaoBot
    Disallow: /baidu
    Disallow: /s?
    Disallow: /shifen/
    Disallow: /homepage/
    Disallow: /cpro
    Disallow: /ulink?
    Disallow: /link?
    Disallow: /home/news/data/
    
    User-agent: Sogou web spider
    Disallow: /baidu
    Disallow: /s?
    Disallow: /shifen/
    Disallow: /homepage/
    Disallow: /cpro
    Disallow: /ulink?
    Disallow: /link?
    Disallow: /home/news/data/
    
    User-agent: Sogou inst spider
    Disallow: /baidu
    Disallow: /s?
    Disallow: /shifen/
    Disallow: /homepage/
    Disallow: /cpro
    Disallow: /ulink?
    Disallow: /link?
    Disallow: /home/news/data/
    
    User-agent: Sogou spider2
    Disallow: /baidu
    Disallow: /s?
    Disallow: /shifen/
    Disallow: /homepage/
    Disallow: /cpro
    Disallow: /ulink?
    Disallow: /link?
    Disallow: /home/news/data/
    
    User-agent: Sogou blog
    Disallow: /baidu
    Disallow: /s?
    Disallow: /shifen/
    Disallow: /homepage/
    Disallow: /cpro
    Disallow: /ulink?
    Disallow: /link?
    Disallow: /home/news/data/
    
    User-agent: Sogou News Spider
    Disallow: /baidu
    Disallow: /s?
    Disallow: /shifen/
    Disallow: /homepage/
    Disallow: /cpro
    Disallow: /ulink?
    Disallow: /link?
    Disallow: /home/news/data/
    
    User-agent: Sogou Orion spider
    Disallow: /baidu
    Disallow: /s?
    Disallow: /shifen/
    Disallow: /homepage/
    Disallow: /cpro
    Disallow: /ulink?
    Disallow: /link?
    Disallow: /home/news/data/
    
    User-agent: ChinasoSpider
    Disallow: /baidu
    Disallow: /s?
    Disallow: /shifen/
    Disallow: /homepage/
    Disallow: /cpro
    Disallow: /ulink?
    Disallow: /link?
    Disallow: /home/news/data/
    
    User-agent: Sosospider
    Disallow: /baidu
    Disallow: /s?
    Disallow: /shifen/
    Disallow: /homepage/
    Disallow: /cpro
    Disallow: /ulink?
    Disallow: /link?
    Disallow: /home/news/data/
    
    
    User-agent: yisouspider
    Disallow: /baidu
    Disallow: /s?
    Disallow: /shifen/
    Disallow: /homepage/
    Disallow: /cpro
    Disallow: /ulink?
    Disallow: /link?
    Disallow: /home/news/data/
    
    User-agent: EasouSpider
    Disallow: /baidu
    Disallow: /s?
    Disallow: /shifen/
    Disallow: /homepage/
    Disallow: /cpro
    Disallow: /ulink?
    Disallow: /link?
    Disallow: /home/news/data/
    
    User-agent: *
    Disallow: /
    

    3).http://news.sina.com.cn/robots.txt

    User-agent: *
    Disallow: /wap/
    Disallow: /iframe/
    Disallow: /temp/
    

    4).https://www.qq.com/robots.txt

    User-agent: *
    Disallow:  
    Sitemap: http://www.qq.com/sitemap_index.xml
    

    5).https://news.qq.com/robots.txt

    User-agent: *
    Disallow:  
    Sitemap: http://www.qq.com/sitemap_index.xml
    Sitemap: http://news.qq.com/topic_sitemap.xml
    

    6).http://news.sina.com.cn/robots.txt 

    User-agent: *
    Disallow: /wap/
    Disallow: /iframe/
    Disallow: /temp/
    

    五、 Robots协议的遵守方式

    1.Robots协议的使用

      网络爬虫:自动或人工识别robots.txt,再进行内容爬取
      约束性:Robots协议是建议但非约束性,网络爬虫可以不遵守,但存在法律风险

    2.对Robots协议的理解

    1).爬取网页 玩转网页
      访问量很小:可以遵守
      访问量较大:建议遵守
    2).爬取网站 爬取系列网站
      非商业且偶尔:建议遵守
      商业利益:必须遵守
    3).爬取全网
      必须遵守
    4).原则:类人行为可不参考Robots协议

    本人计算机小白一枚,对编程有浓厚兴趣,在此贴出自己的计算机学习历程,还有很多不足,望多多指教! 读书后发现好多的内容与具体专业有偏差,没来得及完成,虽然“有时间我就会做...”是人生最大的谎言,但有时间我会继续搞定未完成的内容,有始有终,兴趣使然!
  • 相关阅读:
    《感想都是碎片》
    我容易么我……
    elvish Template Library
    可以直接在C++里面写类似RSL的shader了
    全身和鞘内注射依那西普抑制糖尿病小鼠的触觉异常痛敏
    针对英夫利昔单抗或阿达木单抗的抗体存在与否决定转用依那西普的疗效
    全基因组关联研究发现TNF抑制剂治疗RA与7个位点的多态性有关
    依那西普治疗幼年型特发性关节炎的疗效
    强直性脊柱炎中的髋关节受累:流行病学和髋关节置换术的相关危险因素
    长期使用依那西普对幼年型特发性关节炎患儿生长的影响
  • 原文地址:https://www.cnblogs.com/Robin5/p/11338483.html
Copyright © 2011-2022 走看看