zoukankan      html  css  js  c++  java
  • Python爬虫入门教程 10-100 图虫网多线程爬取

    1.图虫网多线程爬取-写在前面

    经历了一顿噼里啪啦的操作之后,终于我把博客写到了第10篇,后面,慢慢的会涉及到更多的爬虫模块,有人问scrapy 啥时候开始用,这个我预计要在30篇以后了吧,后面的套路依旧慢节奏的,所以莫着急了,100篇呢,预计4~5个月写完,常见的反反爬后面也会写的,还有fuck login类的内容。

    9150e4e5ly1fw3xidss1bj204v04vwee.jpg

    2.图虫网多线程爬取-爬取图虫网

    为什么要爬取这个网站,不知道哎~ 莫名奇妙的收到了,感觉图片质量不错,不是那些妖艳贱货 可以比的,所以就开始爬了,搜了一下网上有人也在爬,但是基本都是py2,py3的还没有人写,所以顺手写一篇吧。

    3.图虫网多线程爬取-起始页面

    https://tuchong.com/explore/
    这个页面中有很多的标签,每个标签下面都有很多图片,为了和谐,我选择了一个非常好的标签花卉 你可以选择其他的,甚至,你可以把所有的都爬取下来。

    https://tuchong.com/tags/%E8%8A%B1%E5%8D%89/  # 花卉编码成了  %E8%8A%B1%E5%8D%89  这个无所谓
    

    我们这次也玩点以前没写过的,使用python中的queue,也就是队列

    下面是我从别人那顺来的一些解释,基本爬虫初期也就用到这么多

    1. 初始化: class Queue.Queue(maxsize) FIFO 先进先出
    
    2. 包中的常用方法:
    
        - queue.qsize() 返回队列的大小
        - 
  • 相关阅读:
    设计模式之模板方法
    UML中常见关系详解(泛化、实现、依赖、关联、组合、聚合)
    JAVA并行框架学习之ForkJoin
    生产环境上shell的解读
    设计模式之中介者模式
    设计模式之策略模式
    设计模式之状态模式
    深入理解动态代理
    深入理解Java虚拟机
    深入理解Java虚拟机
  • 原文地址:https://www.cnblogs.com/hzcya1995/p/13311587.html
Copyright © 2011-2022 走看看