zoukankan      html  css  js  c++  java
  • 谈谈哥的python爬虫书写之路

     为了做一个百度网盘搜索引擎,哥开始研究爬虫,从此迷上爬虫而一发不可收拾,现在就大概谈谈哥的爬虫之路,顺便给出引擎:http://www.quzhuanpan.com

        首先基本的 Python 语法你要了解吧,推荐一本书《Python基础教程》,很适合入门。

        其次分析你的爬虫需求。程序具体  流程是怎么样的?把程序的大致框架搭起来。另外可能还有哪些难点?

        然后了解一下一般写爬虫需要用哪些库,这些库可以很好的帮助你解决很多问题。推荐强悍的 Requests: HTTP for Humans 另外还有其他一些库 如  urllib2 BeautifulSoup 都可以了解下。

        动手开始写了,遇到问题 Google 即可,Google 不行就上知乎问,我遇到的一个问题就是知乎私信大牛解决的。在写的过程中还会学到很多相关的知识,比如说HTTP协议, 多线程 等等。

        这里大概说说几种特殊情况处理:

       1、 对于登陆情况的处理

        这种情况属于post请求,即先向服务器发送表单数据,服务器再将返回的cookie存入本地。

        2、使用cookie登陆

        使用cookie登陆,服务器会认为你是一个已登陆的用户,所以就会返回给你一个已登陆的内容。因此,需要验证码的情况可以使用带验证码登陆的cookie解决。

        3、适用情况:限制IP地址情况,也可解决由于“频繁点击”而需要输入验证码登陆的情况。 这种情况最好的办法就是维护一个代理IP池,网上有很多免费的代理IP,良莠不齐,可以通过筛选找到能用的。对于“频繁点击”的情况,我们还可以通过限制爬虫访问网站的频率来避免被网站禁掉

        4、适用情况:限制频率情况。

        Requests,Urllib2都可以使用time库的sleep()函数:

        5、有些网站会检查你是不是真的浏览器访问,还是机器自动访问的。这种情况,加上User-Agent,表明你是浏览器访问即可。有时还会检查是否带Referer信息还会检查你的Referer是否合法,一般再加上Referer。

        谢谢看官

  • 相关阅读:
    【JVM基础】JVM垃圾回收机制算法
    【java基础】- java双亲委派机制
    Java基础(一)
    JVM
    冷知识: 不会出现OutOfMemoryError的内存区域
    疯狂Java:突破程序员基本功的16课-李刚编著 学习笔记(未完待续)
    nor flash之写保护
    spinor/spinand flash之高频通信延迟采样
    nor flash之频率限制
    使用littlefs-fuse在PC端调试littlefs文件系统
  • 原文地址:https://www.cnblogs.com/huangxie/p/5461094.html
Copyright © 2011-2022 走看看