zoukankan      html  css  js  c++  java
  • day35 爬虫简述

    爬虫概要

    • - pip3 install requests
    • - pip3 install beautifulsoup4
    • 基本爬虫:
    1. - Python实现浏览器行为,requests
    1. - beautifulsoup4,对Html内容进行分析
    1. - Http相关知识:
      • - cookie
      • csrf
      • 请求头

      性能相关:

        - 线程池

        - 进程池

        - 异步非阻塞,

          - (异步=回调,非阻塞=不等待)遇到IO请求不等待,继续执行其他任务,如果IO请求响应内容回来了,自动回调执行某个函数

          - 协程

        - twisted

        - gevent

          - greenlet,协程

          - libevent

        - asyncio

        - tornado

      Scrapy框架

        - 性能相关: twisted

        - URL

        - 对象, #id

        redis-scrapy


    1. 基本爬虫

      - 基本获取页面指定内容
      - 登录之后
        - github
        - chouti
        - 博客园(用户名密码加密)
          - 用户名和密码
        - 知乎,新浪微博(图片验证码)
          - 第三方
          - xxx

    课堂代码:

    https://github.com/liyongsan/git_class/tree/master/day35/s16day35

  • 相关阅读:
    博客园开通新随笔
    遍历两个数组,并输出数组中的不同内容
    1021-二叉树复制和左右子树互换
    1020-层次遍历二叉树
    1019-计算二叉树的高度和结点数
    1018-深度遍历二叉树
    1017-乘积最大
    1016-求幂
    1015-最大公约数和最小公倍数
    1014-数据的插入与删除
  • 原文地址:https://www.cnblogs.com/liyongsan/p/7675625.html
Copyright © 2011-2022 走看看