zoukankan      html  css  js  c++  java
  • <读书笔记>如何入门爬虫?

    大部分爬虫框架都是

    1. 发送请求
    2. 获得页面
    3. 解析页面
    4. 下载内容
    5. 存储内容

    定个宏伟目标

    1. 淘宝1000页
    2. 知乎
    3. 豆瓣
    4. ...

    python基础

    1. list、dict:序列化爬取的内容
    2. 切片:分割爬取内容,获取需要的部分
    3. 条件判断:只找需要的,过滤掉没用的
    4. 循环和迭代:重复爬虫动作,直到爬取完成
    5. 文件读写操作:读取参数,将爬取的内容保存
    6. 编码常识:转码和解码  

    知识储备

    1. 网页基础知识:HTML、POST、GET、JS
    2. 分析语言:正则表达式、XPath、Beautifulsoup

    辅助工具

    1. 开发者工具:F12
    2. 抓包工具:Fiddler 4
    3. 正则表达式测试http://tool.chinaz.com/regex/
    4. 谷歌翻译https://translate.google.cn/
    5. JSON解析https://www.json.cn/
    6. PyCharm(Windows)
    7. Eclipse for Python(Linux)

    各种模块  

    1. urllib
    2. urllib2
    3. requests
    4. scrapy
    5. selenium
    6. phantomJS

    反爬虫策略

    1. 打码平台
    2. PIL(图像处理标准库)
    3. OpenCV((开源)发行的跨平台计算机视觉库) 
    4. Pybrain(号称最好用的Python神经网络库)
    5. 。。。

    数据库

    1. mysql
    2. mongodb
    3. sqlite(scrapy自带的)
    4. redis(分布式需要)

    数据分析

    1. numpy:数据分析,类似matlab
    2. pandas:基于numpy的数据分析模块

    进阶技术

    1. 多线程
    2. 分布式

      Scrapy + MongoDB + Redis 分布式爬虫系统

      a). Redis 用来存储要爬取的网页队列,也就是任务队列

      b). MongoDB 用来存储爬取的内容结果。

      c) . Scrapy 里放爬虫crawler , 分别爬取不同的网页内容。

    学以致用

    1. 多练习,多使用
    2. 编程是最容易获得的超能力。你还在等什么?

     

  • 相关阅读:
    cookie.js插件
    cookie.js插件的案例
    解决mysqli的中文乱码问题
    mysqli字符编码
    小人行走的动画案例
    原生js中用Ajax进行get传参
    php操作数据库
    数据库的信息处理
    数据库的dos命令
    面向对象php 接口 抽象类
  • 原文地址:https://www.cnblogs.com/shuimohei/p/11339509.html
Copyright © 2011-2022 走看看