zoukankan      html  css  js  c++  java
  • 爬虫基础知识(陆)

    一、多线程爬虫

      (一)程序、进程与线程:

        程序:相当于一个应用。

        进程:程序运行资源(内存资源)的最小分配单位,一个程序可以有多个进程。

        线程:cpu最小的调度单位,必须依赖进程而存在。线程没有独立资源,所有线程共享该进程的全部资源。

        线程的划分尺度比进程小。

      (二)为什么多进程和多线程可以提高程序的运行速度?

        1、提高程序的运行速度的第一种方法:提高CPU的利用率。

          解决方式:CPU不用休息。----多线程

          程序中如果只有一个线程,CPU就只处理它。如果在程序中遇到了阻塞,一旦阻塞了,CPU就休息了,休息的时间里,浪费了CPU的资源。

          造成阻塞的方法:

            a、time.sleep()

            b、遇到IO

          而多线程指多个任务。CPU会在这多个任务之间切换,若其中一个线程阻塞了,CPU不会休息,会处理其他线程。

        2、提高程序运行速度的第二种方法:增加CPU,让每个CPU处理一个任务。

          CPU是多核的。---利用CPU的多核进行解决。CPU每一个核处理一个进程。----多进程

      (三)什么是多线程:

          程序中包含多个并行执行流。

    二、python中的threading模块

      1、多线程的开启方法:

        (1)使用threading模块的方法

          t=threading.Thread(

            target=线程执行的任务(方法)名字,

            args=执行方法的参数,是一个元组类型

           )#创建线程

          t.start()#启动线程

        (2)使用自定义类的形式来创建线程

          利用面向对象继承的思想。

          自定义线程类:

            a、继承threading.Thread

            b、保证父类的init方法能够被调用。

              如何调用父类的init方法:

                  super().__init__()

               threading.Thread.__init__(self)

            用类去创建线程的步骤:

              1、继承Thread

              2、重写run方法

              3、实例化线程类,就相当于创建一个线程,用这个对象调用start方法,就可以启动这个线程。

              4、如果自定义线程类要实现init方法,必须先调用父类的init方法。

      2、线程的名称:可以帮助我们测试时了解哪个线程在做哪件事。

        线程对象.name查看:默认是Thread-1,Thread-2....

        自定义名称:其实就是给self.name赋值

      3、查看线程的数量:

        threading.enumerate()---可以查看当前进程中的线程数量。

      4、线程的执行顺序是混乱、随机的。

        原因:线程的状态决定。

      5、死锁的条件:

        死锁的发生会让程序永久阻塞。

        (1)同一个线程,先后获取两次锁对象,在第二次获取锁对象时,会死锁。

        (2)线程a拥有锁1,线程b拥有锁2,线程a在不释放锁1的情况下,试图获取锁2,线程b在不释放锁2的情况下试图获取锁1,此时在获取对方锁的时候,会发生死锁。

    三、多线程和多进程

      1、功能:多线程和多进程都能做到多任务。

      2、区别:

        (1)关系:一个程序至少有一个进程,一个进程至少有一个线程;

        (2)有无资源:进程拥有独立资源,线程依赖于进程,没有独立资源,所有该进程的线程共享所在进程的所有资源。

        (3)划分尺度:线程的划分尺度小于进程(资源比进程少),使得多线程程序并发性更高。

      3、优缺点:

        线程:线程的执行开销小,但不利于资源的管理和保存。

        进程:多个进程间相互独立,不利于进程间信息交互。进程拥有独立资源。

      4、如何选择:

        在设计数据交互频繁的场景,多线程比多进程更加适合。

        在并发程度上,多进程比多线程的效率更高。

        应该按照实际开发情况进行选择。

  • 相关阅读:
    [代码审计]eyoucms前台未授权任意文件上传
    第二届i春秋挖洞大赛的一些感想
    [代码审计]云ec电商系统代码审计
    [代码审计]covercms 后台getshell
    RPO漏洞学习
    [漏洞分析]phpyun系统重装安全隐患#影响从phpyun4.2部分,4.3到4.5全版本
    css块级元素居中
    Linux常用网站
    Linux常用命令
    C#编程网站
  • 原文地址:https://www.cnblogs.com/lavender1221/p/12327222.html
Copyright © 2011-2022 走看看