由抓取豆瓣信息想到的網絡知識 - 走看看

zoukankan html css js c++ java

由抓取豆瓣信息想到的網絡知識

這幾天我們宿舍嘗試將豆瓣上的圖書信息抓取下來。放到自己數據庫中，每種看似可行的方法無不以失敗告終。
我最初的想法是。利用它提供的api，直接抓取。
ISBN從0开始，循環到999999999999。無效就continue跳過，多麼nice。
但是，明文寫著访問每分鐘不能超過10次，否則就404fobbiden；於是。增加sleep，每43秒访問一次，原以為這樣就能够解決了，沒想到。抓到幾十本的時候，又被封鎖了。好！換api。Google的限制
再想辦法，
我們是校園網內網。開一個wifi。這樣子相當於又弄了一個小型內網。用wifi的人去抓，原以為他這樣就無法識別，因為之前我們工作室做p2p的時候。曾認為這是非常難有解的問題。沒想到。。
。
。
。。。。。
。究竟他是怎樣識別的呢？
再想！翻牆，再來抓取！！。的確，能够。但是速度堪憂。再換想法，換代理IP。！！
！
！速度抓雞。。
。。。。

當初我還留著一個迫不得已的辦法：直接向學校圖書館請求圖書信息了。
。
。。
。。可行性感覺不大

最後，不得不向豆瓣master申請api，他仁慈的給我了。：）

查看全文

相关阅读:
python--脚本传参与shell脚本传参（位置参数）
python--一起来盖个时间戳！！
python--多线程的应用
 python-局域网内实现web页面用户端下载文件，easy!
java初始化顺序
 java List<String>的初始化的一个小问题
 java.util.Queue用法
 C#中的struct（结构）为值类型，struct类型全接触
 Java 实例
 git还原某个特定的文件到之前的版本

原文地址：https://www.cnblogs.com/cynchanpin/p/6769427.html

Copyright © 2011-2022 走看看