本课程为之后Scrapy课程的预先课程,非常简单,主要是为了完全没有基础的小白准备的,如果你已经有了一定的了解那么请跳过该部分
问:什么是网络爬虫
答:就是从网上下载数据的一个程序,只不过这个程序下载的东西不是某某网站直接提供给我们的,我们直接从别人的网页上拿来的.
问:为什么是我们自己拿?这两者到底有什么区别
答:我们浏览网站是通过某个网址从别人的服务器获取一个网页,但是这个网页我们是不能像BT文件那样,通过迅雷直接下载的,但是网络爬虫则是一个我们自己的迅雷,只要有了网址,那么网页上的东西我们不需要网站提供给我们,我们自己写程序下载就可以了
问:这样有什么好处吗?
答:好处很简单,就是批量获取数据,比如我们我们想要下载周杰伦所有的微博,一个个复制粘贴是不现实的,但是网络爬虫却可以帮助我们很快全都下载下来,机器是不会累,也不会烦的.
其他的比如批量获取图片,批量下载音乐什么的都是类似的网络爬虫
问: 那Scrapy网络爬虫框架又是什么?
答: 如同我们常用的其他框架一样,比如Sklearn或者TensorFlow,又或者换一个例子,我们的PPT模板,框架就是一个已经写好了很多东西的工具包(模板),我们可以使用它快速开发,不过代价就是我们得按照框架的一些条条框框来写.
问:如何去写一个网络爬虫?
答:首先是要找到拥有我们想要数据的网页,比如之前一个获取赶集网数据的爬虫,我们需要的是一座城市所有的租房信息,那么首先我们需要的就是拥有这样数据的网站,比如赶集网
然后就是分析这个网页,然后才能开始编写我们的爬虫,然后才能运行爬虫—>真正的获取到我们想要的数据.
当页面不同的时候,那么我们所需写的爬虫也就不一样.这是一个见招拆招额过程
而我们本次系列的博客讲的就是后面的第二部分,如何见招拆招,写出我们需要的爬虫
问:这次课程有什么要准备的吗?
答:准备的话,需要看看之前赶集网的那篇博客,之后我们会用做例子,其他的没什么要准备的
问:有什么资料之类的吗?
答:有,首先是书一本,《精通Scrapy网络爬虫》这本书的线也是我们这次课程的主线,我备课的时候参考这本书比较多,除此之外因为现在是寒假了,为了更好的教课,我开了哔哩哔哩直播(欢迎大家来直播间送礼物),不过直播面向对象是我的学弟们,其他人如果来旁听的话,我确实不介意,但是我只会按照学弟们的进度走。
除此之外博客会更新,会慢一天,内容基本差不多。