zoukankan      html  css  js  c++  java
  • 由抓取豆瓣信息想到的網絡知識

     
    這幾天我們宿舍嘗試將豆瓣上的圖書信息抓取下來。放到自己數據庫中,每種看似可行的方法無不以失敗告終。
    我最初的想法是。利用它提供的api,直接抓取。

    ISBN從0开始,循環到999999999999。無效就continue跳過,多麼nice。
    但是,明文寫著访問每分鐘不能超過10次,否則就404fobbiden;於是。增加sleep,每43秒访問一次,原以為這樣就能够解決了,沒想到。抓到幾十本的時候,又被封鎖了。好!換api。Google的限制
    再想辦法,
    我們是校園網內網。開一個wifi。這樣子相當於又弄了一個小型內網。用wifi的人去抓,原以為他這樣就無法識別,因為之前我們工作室做p2p的時候。曾認為這是非常難有解的問題。沒想到。。

    。。。。。

    。究竟他是怎樣識別的呢?
    再想!翻牆,再來抓取!!。的確,能够。但是速度堪憂。再換想法,換代理IP。!!

    !速度抓雞。。

    。。。。

    當初我還留著一個迫不得已的辦法:直接向學校圖書館請求圖書信息了。

    。。

    。。可行性感覺不大


    最後,不得不向豆瓣master申請api,他仁慈的給我了。:)




















  • 相关阅读:
    zookeeper集群
    Hbase分布式集群
    smokeping Master/Slave安装配置
    CentOS修改163源(转载)
    linux 挂载(转载)
    linux挂载U盘(转载)
    linux下修改path变量(转载)
    tar.gz和rpm安装文件(转载)
    linux ps命令(转载)
    linux free命令(转载)
  • 原文地址:https://www.cnblogs.com/cynchanpin/p/6769427.html
Copyright © 2011-2022 走看看