zoukankan      html  css  js  c++  java
  • 爬虫进阶

    爬虫写得多了,就感到有些乏。这个乏,指的并不是乏味,而是更广一些的,浑身使不上劲的SIW 乏。从务实的角度看,现有的答案已经回答地非常全面,无可指摘了。
    相信大多数人的爬虫入门都和我类似,先从urllib2入手,写一个最简陋的get,面对一大堆源码无所 适从。
    接着开始接触传说中给人用的requests ,惊呼『这简直是太棒了』。
    在requests的学习中,我们知道了proxy ,知道了user-agent,知道了如何post。
    随后,我们开始放下写的头疼的正则表达式(regex ),开始了解xpath , BeautifulSoup ,又是一阵 惊呼。
    我们攻克了知乎(曽经),攻克了移动端的微博,却卡在了网页版的微博。于是我们知道了 selenium,用上了PhantomJS ,好嘛,现在浏览器能做的我都能做了。
    渐渐地我们不满足于单线程的慢慢虫,于是我们开始写多线程。
    渐渐地我们不满足于把数据放在csv文件中,于是我们开始用上mysql , mongodb , redis。
    最终我们发现从头开始写4爬虫太不划算了,于是我们又捡起了一^始曽接触但随即放弃了的 scrapy。乖乖,现在我们才发现scrapy的速度那么快,效率那么高。我们不禁有些泄气。

  • 相关阅读:
    Emacs for OIer 的一些配置
    CF1336E Chiori and Doll Picking 【线性代数,组合计数】
    CF605E Intergalaxy Trips 【贪心,动态规划,期望】
    Luogu6329 【模板】点分树 | 震波
    [SDOI2014]数表
    [BZOJ4403]序列统计
    [BZOJ5099]Pionek
    SP1812 LCS2
    SA & SAM
    [HAOI2016]找相同字符
  • 原文地址:https://www.cnblogs.com/wangshuyi/p/6737107.html
Copyright © 2011-2022 走看看