這幾天我們宿舍嘗試將豆瓣上的圖書信息抓取下來。放到自己數據庫中,每種看似可行的方法無不以失敗告終。
我最初的想法是。利用它提供的api,直接抓取。
ISBN從0开始,循環到999999999999。無效就continue跳過,多麼nice。
但是,明文寫著访問每分鐘不能超過10次,否則就404fobbiden;於是。增加sleep,每43秒访問一次,原以為這樣就能够解決了,沒想到。抓到幾十本的時候,又被封鎖了。好!換api。Google的限制
再想辦法,
我們是校園網內網。開一個wifi。這樣子相當於又弄了一個小型內網。用wifi的人去抓,原以為他這樣就無法識別,因為之前我們工作室做p2p的時候。曾認為這是非常難有解的問題。沒想到。。
。
。
。。。。。
。究竟他是怎樣識別的呢?
再想!翻牆,再來抓取!!。的確,能够。但是速度堪憂。再換想法,換代理IP。!!
!
!速度抓雞。。
。。。。
當初我還留著一個迫不得已的辦法:直接向學校圖書館請求圖書信息了。
。
。。
。。可行性感覺不大
最後,不得不向豆瓣master申請api,他仁慈的給我了。:)