分布式爬虫
"""
# 1 安装pip3 install scrapy-redis
# 源码部分,不到1000行,
# 1 原来的爬虫继承
from scrapy_redis.spiders import RedisSpider
class CnblogsSpider(RedisSpider):
#start_urls = ['http://www.cnblogs.com/']
redis_key = 'myspider:start_urls'
# 2 在setting中配置
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
ITEM_PIPELINES = {
'scrapy_redis.pipelines.RedisPipeline': 300
}
REDIS_HOST = 'localhost'
REDIS_PORT = '6379'
REDIS_PARAMS = {
'password': 'Admin123', # 改成你自己的密码
}
# 3 多台机器上启动scrapy
# 4 向reids中发送起始url
lpush myspider:start_urls https://www.cnblogs.com
"""
语言补充
"""
# 编译型语言和解释型语言
# python,js,php 解释型: 一定要有个解释器 (全都夸平台,在不同平台装不通平台的解释器即可)
# 编译型语言:c,c++ java(有人说是编译型,有人说是解释型)
-java:jdk,jre,jvm(三个分别是啥)
-jdk:java开发环境(开发人员要装)
-jre:java运行环境(要运行java程序,必须装)
-jvm:java虚拟机,所有的java程序必须运行在虚拟机之上
-java对外发布:跨平台,一处编码,处处运行(1990年)
-java编译----》字节码文件(.class文件)----》字节码文件在jvm上运行---》在不同平台装不通java虚拟---》实现了跨平台
-java:1.5---》古老 1.6 1.7 ---》java 8(用的还比较多)---》java9 ---》java13
-c语言:写完了,想在windwos下运行----》跑到windows机器下编译成可执行文件
-想在linux下运行----》跑到linux机器下编译成可执行文件
-linux上装python环境(源码安装,make,make install)
-go编译型:跨平台编译(在windows上可以编译出linux下可执行文件)---》2009年--》微服务
-所有代码都编译成一个可执行文件(web项目---》编译之后---》可执行文件---》丢到服务器就能执行,不需要安装任何依赖)
-java要运行---》最低最低要跑在java虚拟机之上(光jvm要跑起来,就占好几百m内存)---》
-安卓手机app--java开发的---》你的安卓手机在上面跑了个jvm
-go:就是个可执行文件(go的性能比java高,他俩不相上下),阿里:自己写了jvm
-安卓:谷歌,---->当时那个年代,java程序员多---》java可以快速转过去---》
-谷歌:Kotlin:---》用来取代java---》写安卓---》在国际上排名比go高
-同年ios/mac软件:object-c-----》swift(苹果的一个工程师,没事的时候,写的一个语言)---》过了没几年,跳槽去了facebook----》
-java:sun公司出的,后来被甲骨文收购了,开始恶心人---》把java做成收费---》一门收费
-c#:微软的:一开始收费,比java要好,没人用,免费,开源了,也没人用
-java se java ee java me
-python写的代码,用打包工具,打包成exe----》把代码和解释器统统打包到exe中了
-垃圾回收机制:挺高端
"""