zoukankan      html  css  js  c++  java
  • 快速认识网络爬虫与Scrapy网络爬虫框架

    本课程为之后Scrapy课程的预先课程,非常简单,主要是为了完全没有基础的小白准备的,如果你已经有了一定的了解那么请跳过该部分

    问:什么是网络爬虫
    :就是从网上下载数据的一个程序,只不过这个程序下载的东西不是某某网站直接提供给我们的,我们直接从别人的网页上拿来的.
    问:为什么是我们自己拿?这两者到底有什么区别
    :我们浏览网站是通过某个网址从别人的服务器获取一个网页,但是这个网页我们是不能像BT文件那样,通过迅雷直接下载的,但是网络爬虫则是一个我们自己的迅雷,只要有了网址,那么网页上的东西我们不需要网站提供给我们,我们自己写程序下载就可以了

    问:这样有什么好处吗?
    :好处很简单,就是批量获取数据,比如我们我们想要下载周杰伦所有的微博,一个个复制粘贴是不现实的,但是网络爬虫却可以帮助我们很快全都下载下来,机器是不会累,也不会烦的.

    其他的比如批量获取图片,批量下载音乐什么的都是类似的网络爬虫

    问: 那Scrapy网络爬虫框架又是什么?
    答: 如同我们常用的其他框架一样,比如Sklearn或者TensorFlow,又或者换一个例子,我们的PPT模板,框架就是一个已经写好了很多东西的工具包(模板),我们可以使用它快速开发,不过代价就是我们得按照框架的一些条条框框来写.

    问:如何去写一个网络爬虫?

    答:首先是要找到拥有我们想要数据的网页,比如之前一个获取赶集网数据的爬虫,我们需要的是一座城市所有的租房信息,那么首先我们需要的就是拥有这样数据的网站,比如赶集网

    然后就是分析这个网页,然后才能开始编写我们的爬虫,然后才能运行爬虫—>真正的获取到我们想要的数据.

    当页面不同的时候,那么我们所需写的爬虫也就不一样.这是一个见招拆招额过程

    而我们本次系列的博客讲的就是后面的第二部分,如何见招拆招,写出我们需要的爬虫

    问:这次课程有什么要准备的吗?
    答:准备的话,需要看看之前赶集网的那篇博客,之后我们会用做例子,其他的没什么要准备的

    问:有什么资料之类的吗?
    答:有,首先是书一本,《精通Scrapy网络爬虫》这本书的线也是我们这次课程的主线,我备课的时候参考这本书比较多,除此之外因为现在是寒假了,为了更好的教课,我开了哔哩哔哩直播(欢迎大家来直播间送礼物),不过直播面向对象是我的学弟们,其他人如果来旁听的话,我确实不介意,但是我只会按照学弟们的进度走。

    除此之外博客会更新,会慢一天,内容基本差不多。

  • 相关阅读:
    0593. Valid Square (M)
    0832. Flipping an Image (E)
    1026. Maximum Difference Between Node and Ancestor (M)
    0563. Binary Tree Tilt (E)
    0445. Add Two Numbers II (M)
    1283. Find the Smallest Divisor Given a Threshold (M)
    C Primer Plus note9
    C Primer Plus note8
    C Primer Plus note7
    C Primer Plus note6
  • 原文地址:https://www.cnblogs.com/fonttian/p/8480682.html
Copyright © 2011-2022 走看看