zoukankan      html  css  js  c++  java
  • <读书笔记>如何入门爬虫?

    大部分爬虫框架都是

    1. 发送请求
    2. 获得页面
    3. 解析页面
    4. 下载内容
    5. 存储内容

    定个宏伟目标

    1. 淘宝1000页
    2. 知乎
    3. 豆瓣
    4. ...

    python基础

    1. list、dict:序列化爬取的内容
    2. 切片:分割爬取内容,获取需要的部分
    3. 条件判断:只找需要的,过滤掉没用的
    4. 循环和迭代:重复爬虫动作,直到爬取完成
    5. 文件读写操作:读取参数,将爬取的内容保存
    6. 编码常识:转码和解码  

    知识储备

    1. 网页基础知识:HTML、POST、GET、JS
    2. 分析语言:正则表达式、XPath、Beautifulsoup

    辅助工具

    1. 开发者工具:F12
    2. 抓包工具:Fiddler 4
    3. 正则表达式测试http://tool.chinaz.com/regex/
    4. 谷歌翻译https://translate.google.cn/
    5. JSON解析https://www.json.cn/
    6. PyCharm(Windows)
    7. Eclipse for Python(Linux)

    各种模块  

    1. urllib
    2. urllib2
    3. requests
    4. scrapy
    5. selenium
    6. phantomJS

    反爬虫策略

    1. 打码平台
    2. PIL(图像处理标准库)
    3. OpenCV((开源)发行的跨平台计算机视觉库) 
    4. Pybrain(号称最好用的Python神经网络库)
    5. 。。。

    数据库

    1. mysql
    2. mongodb
    3. sqlite(scrapy自带的)
    4. redis(分布式需要)

    数据分析

    1. numpy:数据分析,类似matlab
    2. pandas:基于numpy的数据分析模块

    进阶技术

    1. 多线程
    2. 分布式

      Scrapy + MongoDB + Redis 分布式爬虫系统

      a). Redis 用来存储要爬取的网页队列,也就是任务队列

      b). MongoDB 用来存储爬取的内容结果。

      c) . Scrapy 里放爬虫crawler , 分别爬取不同的网页内容。

    学以致用

    1. 多练习,多使用
    2. 编程是最容易获得的超能力。你还在等什么?

     

  • 相关阅读:
    C语言中 指针和数组
    C语言中 指针与结构体
    void指针、NULL指针和未初始化指针
    C语言中 指针、引用和取值

    别--------
    快速开发 jQuery 插件的 10 大技巧(转)
    采用预取(Prefetch)来加速你的网站(转)
    HttpWatch工具简介及使用技巧(转)
    iScroll框架的使用和修改
  • 原文地址:https://www.cnblogs.com/shuimohei/p/11339509.html
Copyright © 2011-2022 走看看