zoukankan      html  css  js  c++  java
  • scrapy-redis

    一、 memcached & redis 是什么?

    软件,在内存中存取数据。
    应用场景:主要做页面缓存
    

    二、 memcached & redis有什么区别?

    内存中存储时:都是以键值对存储
    	k  === v
    	
    类型:
    	memcached: 类型单一
    		k  === "字符串"
    		
    	redis:     五大数据类型
    		k  === "字符串",数字也是以字符串方式存储
    		k  === 列表list
    		k  === 字典hash
    		k  === 集合set
    		k  === 有序集合order set()
    		
    		
    持久化:
    	memcached: 断电内存清空
    	redis:      支持持久化(定时把缓存写入硬盘中,断电后有电后自动写入缓存中)
    	但持久化耗时,性能降低
    	
    Redis只使用单核,而Memcached可以使用多核

    三、 memcached  

    安装:

    Mac安装和windows安装:pip3 install python3-memcached
    

    启动Memcached

    memcached -d -m 10    -u root -l 10.211.55.4 -p 12000 -c 256 -P /tmp/memcached.pid
     
    参数说明:
        -d 是启动一个守护进程
        -m 是分配给Memcache使用的内存数量,单位是MB
        -u 是运行Memcache的用户
        -l 是监听的服务器IP地址
        -p 是设置Memcache监听的端口,最好是1024以上的端口
        -c 选项是最大运行的并发连接数,默认是1024,按照你服务器的负载量来设定
        -P 是设置保存Memcache的pid文件
    View Code

    Memcached命令

    存储命令: set/add/replace/append/prepend/cas
    获取命令: get/gets
    其他命令: delete/stats..
    View Code

    Python操作Memcached

     1. 连接

    import memcache
    # mc = memcache.Client(['192.168.x.x:12000'], debug=True)   #上线的时候把debug修改为False
    # mc.set("k", "value")      # value是字符串类型
    # ret = mc.get('k')         # 根据k获取value值
    # print(ret)
    View Code

    2. 天生支持集群

    mc = memcache.Client([('192.168.11.81:12000',1),], debug=True)      #列表,可以连多台机器。后面数字理解为权重,权重越大客户端连接的越多
    
    # 内部算法,选择哪台服务器
    # ['192.168.x.1:12000','192.168.x.2:12000','192.168.x.2:12000','192.168.x.2:12000']
    # # 服务器个数:2
    # # 设置:key   ->  内部算法转化为 5646  -> 5646%/2   用转化的数字对连接服务器总个数取余,获取索引,从而知道从数据库获取的信息放到哪台服务器
    # # 获取:key   ->  内部算法转化为 5646  -> 5646%/2
    # mc.set("k", "value",10)        # 10为超时时间,超时后获取不了value值
    # ret = mc.get('k')
    # print(ret)
    mc.set("ct", 1000)
    v = mc.get('ct')
    print(v,type(v))
    View Code

    3. 常用操作

    add:添加一条键值对,如果已经存在的 key,重复执行add操作异常
        import memcache
    
        mc = memcache.Client(['10.211.55.4:12000'], debug=True)
        mc.add('k1', 'v1')
        # mc.add('k1', 'v2') # 报错,对已经存在的key重复添加,失败!!!
    
    
    replace:修改某个key的值,如果key不存在,则异常
        import memcache
    
        mc = memcache.Client(['10.211.55.4:12000'], debug=True)
        # 如果memcache中存在kkkk,则替换成功,否则一场
        mc.replace('kkkk','999')
    
    
    set 和 set_multi
        set         设置一个键值对,如果key不存在,则创建,如果key存在,则修改
        set_multi   设置多个键值对,如果key不存在,则创建,如果key存在,则修改
    
            import memcache
            mc = memcache.Client(['10.211.55.4:12000'], debug=True)
            mc.set('key0', 'xyp')     
            mc.set_multi({'key1': 'val1', 'key2': 'val2'})
    
    
    delete 和 delete_multi
        delete          在Memcached中删除指定的一个键值对
        delete_multi    在Memcached中删除指定的多个键值对
    
            import memcache
            mc = memcache.Client(['10.211.55.4:12000'], debug=True)
            mc.delete('key0')
            mc.delete_multi(['key1', 'key2'])
    
    
    get 和 get_multi
        get         获取一个键值对
        get_multi   获取多一个键值对
    
            import memcache
            mc = memcache.Client(['10.211.55.4:12000'], debug=True)
            val = mc.get('key0')
            item_dict = mc.get_multi(["key1", "key2", "key3"])
    
    
    append 和 prepend
        append    修改指定key的值,在该值 后面 追加内容
        prepend   修改指定key的值,在该值 前面 插入内容
    
            import memcache
            mc = memcache.Client(['10.211.55.4:12000'], debug=True)
            # k1 = "v1"
             
            mc.append('k1', 'after')
            # k1 = "v1after"
             
            mc.prepend('k1', 'before')
            # k1 = "beforev1after"
    
    
    decr 和 incr
        incr  自增,将Memcached中的某一个值增加 N ( N默认为1 )
        decr  自减,将Memcached中的某一个值减少 N ( N默认为1 )
            import memcache
    
            mc = memcache.Client(['10.211.55.4:12000'], debug=True)
            mc.set('k1', '777')
             
            mc.incr('k1')
            # k1 = 778
             
            mc.incr('k1', 10)
            # k1 = 788
             
            mc.decr('k1')
            # k1 = 787
             
            mc.decr('k1', 10)
            # k1 = 777
    
    
    gets 和 cas
    
        s1.py设置mc.set("ct", 1000)
        s2.py和s3.py
            import memcache
            mc = memcache.Client([('192.168.11.81:12000',1),], debug=True)
            ret = mc.get('ct')
            print(ret)
            v = input('>>>>')
            mc.cas('ct',999)
    
        运行s2.py #---> 1000
        运行s3.py #---> 1000
        运行s1.py 获取mc.get('ct')     # ---> 999,实际应该是998
    
        解决:
            s2.py和s3.py
                import memcache
                mc = memcache.Client([('192.168.11.81:12000',1),], debug=True,cache_cas=True)
                ret = mc.gets('ct')
                print(ret)
                v = input('>>>>')
                mc.cas('ct',999)
    
            运行s2.py #---> 1000
            运行s3.py # 报错
    View Code

    4. memcached应用Django缓存中

    http://www.cnblogs.com/xuyaping/p/7106809.html

    redis也能应用到django中,但不支持内置。需要第三方插件来实现,搜django、redis缓存插件。
    

    4.1 数据类型

    k->""                    #字符串
    k->[1,2,3,2,666]        #列表
    chouti:items:
    chout:start_urls
    
    
    
    k->{"k1":'v1','k2':'v2'}    #字典
    k->{11,222}                  #集合,不重复
    chouti:dupefilter:{}
    
    k->{11(9),222(3)}            #有序集合,不重复,可排序。根据()内数字进行排序
    chouti:requests 
    cnblogs:requests : 
    
    设想:
        
        conn.set('k','v')        
        
        conn.append('k','666')        # 当设置的v是列表[1,2,3,2] ---> [1,2,3,2,666]
        
        conn.set('k',k1,v1)            # 设置的v是字典
        
        conn.add('k',11)             # 设置的v是集合,去重规则
        
        k->{http://www.xxx.com(-1),www.xxx.com(-2),,www.xxx.com(-3)}        # 根据()里数字优先级来下载网页
    数据类型

    4.2 操作模式

    redis-py提供两个类Redis和StrictRedis用于实现Redis的命令,StrictRedis用于实现大部分官方的命令,并使用官方的语法和命令,
    Redis是StrictRedis的子类,用于向后兼容旧版本的redis-py。
    
    import redis
    r = redis.Redis(host='192.168.11.81', port=6379)
    r.set('foo', 'Bar')
    print r.get('foo')
    操作模式:连接

    4.3 连接池

    redis-py使用connection pool来管理对一个redis server的所有连接,避免每次建立、释放连接的开销。默认,每个Redis实例都会维护一个自己的连接池。
    可以直接建立一个连接池,然后作为参数Redis,这样就可以实现多个Redis实例共享一个连接池。
    
    import redis
    
    pool = redis.ConnectionPool(host='192.168.11.81', port=6379)
     
    r = redis.Redis(connection_pool=pool)
    r.set('foo', 'Bar')
    print r.get('foo')
    #---> b'Bar'
    连接池:推荐使用,避免重复连接

    4.4 操作

    String操作,redis中的String在在内存中按照一个name对应一个value来存储。如图:

    set(name, value, ex=None, px=None, nx=False, xx=False)

    在Redis中设置值,默认,不存在则创建,存在则修改
    参数:
         ex,过期时间(秒)
         px,过期时间(毫秒)
         nx,如果设置为True,则只有name不存在时,当前set操作才执行
         xx,如果设置为True,则只有name存在时,岗前set操作才执行
    

    setnx(name, value)

    设置值,只有name不存在时,执行设置操作(添加)
    

    setex(name, value, time)

    # 设置值
    # 参数:
        # time,过期时间(数字秒 或 timedelta对象)
    

    psetex(name, time_ms, value)

    # 设置值
    # 参数:
        # time_ms,过期时间(数字毫秒 或 timedelta对象)
    

    mset(*args, **kwargs)

    批量设置值
    如:
        mset(k1='v1', k2='v2')
        或
        mget({'k1': 'v1', 'k2': 'v2'})
    

    get(name)

    获取值
    

    mget(keys, *args)

    批量获取
    如:
        mget('ylr', 'wupeiqi')
        或
        r.mget(['ylr', 'wupeiqi'])
    

    getset(name, value)

    设置新值并获取原来的值
    

    getrange(key, start, end)

    # 获取子序列(根据字节获取,非字符)
    # 参数:
        # name,Redis 的 name
        # start,起始位置(字节)
        # end,结束位置(字节)
    # 如: "武沛齐" ,0-3表示 "武"
    

    setrange(name, offset, value)

    # 修改字符串内容,从指定字符串索引开始向后替换(新值太长时,则向后添加)
    # 参数:
        # offset,字符串的索引,字节(一个汉字三个字节)
        # value,要设置的值
    

    setbit(name, offset, value)

    # 对name对应值的二进制表示的位进行操作
    
    # 参数:
        # name,redis的name
        # offset,位的索引(将值变换成二进制后再进行索引)
        # value,值只能是 1 或 0
    
    # 注:如果在Redis中有一个对应: n1 = "foo",
            那么字符串foo的二进制表示为:01100110 01101111 01101111
        所以,如果执行 setbit('n1', 7, 1),则就会将第7位设置为1,
            那么最终二进制则变成 01100111 01101111 01101111,即:"goo"
    
    # 扩展,转换二进制表示:
    
        # source = "武沛齐" 
        source = "foo" 
    
        for i in source:
            num = ord(i)
            print bin(num).replace('b','')
    
        特别的,如果source是汉字 "武沛齐"怎么办?
        答:对于utf-8,每一个汉字占 3 个字节,那么 "武沛齐" 则有 9个字节
           对于汉字,for循环时候会按照 字节 迭代,那么在迭代时,将每一个字节转换 十进制数,然后再将十进制数转换成二进制
            11100110 10101101 10100110 11100110 10110010 10011011 11101001 10111101 10010000
            -------------------------- ----------------------------- -----------------------------
                        武                         沛                           齐

    getbit(name, offset)

    # 获取name对应的值的二进制表示中的某位的值 (0或1)
    

    bitcount(key, start=None, end=None)

    # 获取name对应的值的二进制表示中 1 的个数
    # 参数:
        # key,Redis的name
        # start,位起始位置
        # end,位结束位置
    

    bitop(operation, dest, *keys)

    # 获取多个值,并将值做位运算,将最后的结果保存至新的name对应的值
    
    # 参数:
        # operation,AND(并) 、 OR(或) 、 NOT(非) 、 XOR(异或)
        # dest, 新的Redis的name
        # *keys,要查找的Redis的name
    
    # 如:
        bitop("AND", 'new_name', 'n1', 'n2', 'n3')
        # 获取Redis中n1,n2,n3对应的值,然后讲所有的值做位运算(求并集),然后将结果保存 new_name 对应的值中
    

    strlen(name)

    # 返回name对应值的字节长度(一个汉字3个字节)
    

    incr(self, name, amount=1)

    # 自增 name对应的值,当name不存在时,则创建name=amount,否则,则自增。
    
    # 参数:
        # name,Redis的name
        # amount,自增数(必须是整数)
    
    # 注:同incrby
    

    incrbyfloat(self, name, amount=1.0)

    # 自增 name对应的值,当name不存在时,则创建name=amount,否则,则自增。
    
    # 参数:
        # name,Redis的name
        # amount,自增数(浮点型)
    

    decr(self, name, amount=1)

    # 自减 name对应的值,当name不存在时,则创建name=amount,否则,则自减。
    
    # 参数:
        # name,Redis的name
        # amount,自减数(整数)
    

    append(key, value)

    # 在redis name对应的值后面追加内容
    
    # 参数:
        key, redis的name
        value, 要追加的字符串
    

      

    Hash操作,redis中Hash在内存中的存储格式如下图:

    hset(name, key, value)

    # name对应的hash中设置一个键值对(不存在,则创建;否则,修改)
    
    # 参数:
        # name,redis的name
        # key,name对应的hash中的key
        # value,name对应的hash中的value
    
    # 注:
        # hsetnx(name, key, value),当name对应的hash中不存在当前key时则创建(相当于添加)
    

    hmset(name, mapping)

    # 在name对应的hash中批量设置键值对
    
    # 参数:
        # name,redis的name
        # mapping,字典,如:{'k1':'v1', 'k2': 'v2'}
    
    # 如:
        # r.hmset('xx', {'k1':'v1', 'k2': 'v2'})
    

    hget(name,key)

    # 在name对应的hash中获取根据key获取value
    

    hmget(name, keys, *args)

    # 在name对应的hash中获取多个key的值
    
    # 参数:
        # name,reids对应的name
        # keys,要获取key集合,如:['k1', 'k2', 'k3']
        # *args,要获取的key,如:k1,k2,k3
    
    # 如:
        # r.mget('xx', ['k1', 'k2'])
        # 或
        # print r.hmget('xx', 'k1', 'k2')
    

    hgetall(name)

    获取name对应hash的所有键值
    

    hlen(name)

    # 获取name对应的hash中键值对的个数
    

    hkeys(name)

    # 获取name对应的hash中所有的key的值
    

    hvals(name)

    # 获取name对应的hash中所有的value的值
    

    hexists(name, key)

    # 检查name对应的hash是否存在当前传入的key
    

    hdel(name,*keys)

    # 将name对应的hash中指定key的键值对删除
    

    hincrby(name, key, amount=1)

    # 自增name对应的hash中的指定key的值,不存在则创建key=amount
    # 参数:
        # name,redis中的name
        # key, hash对应的key
        # amount,自增数(整数)
    

    hincrbyfloat(name, key, amount=1.0)

    # 自增name对应的hash中的指定key的值,不存在则创建key=amount
    
    # 参数:
        # name,redis中的name
        # key, hash对应的key
        # amount,自增数(浮点数)
    
    # 自增name对应的hash中的指定key的值,不存在则创建key=amount
    

    hscan(name, cursor=0, match=None, count=None)

    # 增量式迭代获取,对于数据大的数据非常有用,hscan可以实现分片的获取数据,并非一次性将数据全部获取完,从而放置内存被撑爆
    
    # 参数:
        # name,redis的name
        # cursor,游标(基于游标分批取获取数据)
        # match,匹配指定key,默认None 表示所有的key
        # count,每次分片最少获取个数,默认None表示采用Redis的默认分片个数
    
    # 如:
        # 第一次:cursor1, data1 = r.hscan('xx', cursor=0, match=None, count=None)
        # 第二次:cursor2, data1 = r.hscan('xx', cursor=cursor1, match=None, count=None)
        # ...
        # 直到返回值cursor的值为0时,表示数据已经通过分片获取完毕
    

    hscan_iter(name, match=None, count=None)

    # 利用yield封装hscan创建生成器,实现分批去redis中获取数据
    
    # 参数:
        # match,匹配指定key,默认None 表示所有的key
        # count,每次分片最少获取个数,默认None表示采用Redis的默认分片个数
    
    # 如:
        # for item in r.hscan_iter('xx'):
        #     print item
    

      

    List操作,redis中的List在在内存中按照一个name对应一个List来存储。如图:

    lpush(name,values)

    # 在name对应的list中添加元素,每个新的元素都添加到列表的最左边
    
    # 如:
        # r.lpush('oo', 11,22,33)
        # 保存顺序为: 33,22,11
    
    # 扩展:
        # rpush(name, values) 表示从右向左操作
    

    lpushx(name,value)

    # 在name对应的list中添加元素,只有name已经存在时,值添加到列表的最左边
    
    # 更多:
        # rpushx(name, value) 表示从右向左操作
    

    llen(name)

    # name对应的list元素的个数
    

    linsert(name, where, refvalue, value))

    # 在name对应的列表的某一个值前或后插入一个新值
    
    # 参数:
        # name,redis的name
        # where,BEFORE或AFTER
        # refvalue,标杆值,即:在它前后插入数据
        # value,要插入的数据
    

    r.lset(name, index, value)

    # 对name对应的list中的某一个索引位置重新赋值
    
    # 参数:
        # name,redis的name
        # index,list的索引位置
        # value,要设置的值
    

    r.lrem(name, value, num)

    # 在name对应的list中删除指定的值
    
    # 参数:
        # name,redis的name
        # value,要删除的值
        # num,  num=0,删除列表中所有的指定值;
               # num=2,从前到后,删除2个;
               # num=-2,从后向前,删除2个
    

    lpop(name)

    # 在name对应的列表的左侧获取第一个元素并在列表中移除,返回值则是第一个元素
    
    # 更多:
        # rpop(name) 表示从右向左操作
    

    lindex(name, index)

    在name对应的列表中根据索引获取列表元素
    

    lrange(name, start, end)

    # 在name对应的列表分片获取数据
    # 参数:
        # name,redis的name
        # start,索引的起始位置
        # end,索引结束位置
    

    ltrim(name, start, end)

    # 在name对应的列表中移除没有在start-end索引之间的值
    # 参数:
        # name,redis的name
        # start,索引的起始位置
        # end,索引结束位置
    

    rpoplpush(src, dst)

    # 从一个列表取出最右边的元素,同时将其添加至另一个列表的最左边
    # 参数:
        # src,要取数据的列表的name
        # dst,要添加数据的列表的name
    

    blpop(keys, timeout)

    # 将多个列表排列,按照从左到右去pop对应列表的元素
    
    # 参数:
        # keys,redis的name的集合
        # timeout,超时时间,当元素所有列表的元素获取完之后,阻塞等待列表内有数据的时间(秒), 0 表示永远阻塞
    
    # 更多:
        # r.brpop(keys, timeout),从右向左获取数据
    

    brpoplpush(src, dst, timeout=0)

    # 从一个列表的右侧移除一个元素并将其添加到另一个列表的左侧
    
    # 参数:
        # src,取出并要移除元素的列表对应的name
        # dst,要插入元素的列表对应的name
        # timeout,当src对应的列表中没有数据时,阻塞等待其有数据的超时时间(秒),0 表示永远阻塞
    

    自定义增量迭代

    # 由于redis类库中没有提供对列表元素的增量迭代,如果想要循环name对应的列表的所有元素,那么就需要:
        # 1、获取name对应的所有列表
        # 2、循环列表
    # 但是,如果列表非常大,那么就有可能在第一步时就将程序的内容撑爆,所有有必要自定义一个增量迭代的功能:
    
    def list_iter(name):
        """
        自定义redis列表增量迭代
        :param name: redis中的name,即:迭代name对应的列表
        :return: yield 返回 列表元素
        """
        list_count = r.llen(name)
        for index in xrange(list_count):
            yield r.lindex(name, index)
    
    # 使用
    for item in list_iter('pp'):
        print item
    

    Set操作,Set集合就是不允许重复的列表

    sadd(name,values)

    # name对应的集合中添加元素
    

    scard(name)

    获取name对应的集合中元素个数
    

    sdiff(keys, *args)

    在第一个name对应的集合中且不在其他name对应的集合的元素集合
    

    sdiffstore(dest, keys, *args)

    # 获取第一个name对应的集合中且不在其他name对应的集合,再将其新加入到dest对应的集合中
    

    sinter(keys, *args)

    # 获取多一个name对应集合的并集
    

    sinterstore(dest, keys, *args)

    # 获取多一个name对应集合的并集,再讲其加入到dest对应的集合中
    

    sismember(name, value)

    # 检查value是否是name对应的集合的成员
    

    smembers(name)

    # 获取name对应的集合的所有成员
    

    smove(src, dst, value)

    # 将某个成员从一个集合中移动到另外一个集合
    

    spop(name)

    # 从集合的右侧(尾部)移除一个成员,并将其返回
    

    srandmember(name, numbers)

    # 从name对应的集合中随机获取 numbers 个元素
    

    srem(name, values)

    # 在name对应的集合中删除某些值
    

    sunion(keys, *args)

    # 获取多一个name对应的集合的并集
    

    sunionstore(dest,keys, *args)

    # 获取多一个name对应的集合的并集,并将结果保存到dest对应的集合中
    

    sscan(name, cursor=0, match=None, count=None)
    sscan_iter(name, match=None, count=None)

    # 同字符串的操作,用于增量迭代分批获取元素,避免内存消耗太大
    

    有序集合,在集合的基础上,为每元素排序;元素的排序需要根据另外一个值来进行比较,所以,对于有序集合,每一个元素有两个值,即:值和分数,分数专门用来做排序。

    zadd(name, *args, **kwargs)

    # 在name对应的有序集合中添加元素
    # 如:
         # zadd('zz', 'n1', 1, 'n2', 2)
         # 或
         # zadd('zz', n1=11, n2=22)
    

    zcard(name)

    # 获取name对应的有序集合元素的数量
    

    zcount(name, min, max)

    # 获取name对应的有序集合中分数 在 [min,max] 之间的个数
    

    zincrby(name, value, amount)

    # 自增name对应的有序集合的 name 对应的分数
    

    r.zrange( name, start, end, desc=False, withscores=False, score_cast_func=float)

    # 按照索引范围获取name对应的有序集合的元素
    
    # 参数:
        # name,redis的name
        # start,有序集合索引起始位置(非分数)
        # end,有序集合索引结束位置(非分数)
        # desc,排序规则,默认按照分数从小到大排序
        # withscores,是否获取元素的分数,默认只获取元素的值
        # score_cast_func,对分数进行数据转换的函数
    
    # 更多:
        # 从大到小排序
        # zrevrange(name, start, end, withscores=False, score_cast_func=float)
    
        # 按照分数范围获取name对应的有序集合的元素
        # zrangebyscore(name, min, max, start=None, num=None, withscores=False, score_cast_func=float)
        # 从大到小排序
        # zrevrangebyscore(name, max, min, start=None, num=None, withscores=False, score_cast_func=float)
    

    zrank(name, value)

    # 获取某个值在 name对应的有序集合中的排行(从 0 开始)
    
    # 更多:
        # zrevrank(name, value),从大到小排序
    

    zrangebylex(name, min, max, start=None, num=None)

    # 当有序集合的所有成员都具有相同的分值时,有序集合的元素会根据成员的 值 (lexicographical ordering)来进行排序,而这个命令则可以返回给定的有序集合键 key 中, 元素的值介于 min 和 max 之间的成员
    # 对集合中的每个成员进行逐个字节的对比(byte-by-byte compare), 并按照从低到高的顺序, 返回排序后的集合成员。 如果两个字符串有一部分内容是相同的话, 那么命令会认为较长的字符串比较短的字符串要大
    
    # 参数:
        # name,redis的name
        # min,左区间(值)。 + 表示正无限; - 表示负无限; ( 表示开区间; [ 则表示闭区间
        # min,右区间(值)
        # start,对结果进行分片处理,索引位置
        # num,对结果进行分片处理,索引后面的num个元素
    
    # 如:
        # ZADD myzset 0 aa 0 ba 0 ca 0 da 0 ea 0 fa 0 ga
        # r.zrangebylex('myzset', "-", "[ca") 结果为:['aa', 'ba', 'ca']
    
    # 更多:
        # 从大到小排序
        # zrevrangebylex(name, max, min, start=None, num=None)
    

    zrem(name, values)

    # 删除name对应的有序集合中值是values的成员
    
    # 如:zrem('zz', ['s1', 's2'])
    

    zremrangebyrank(name, min, max)

    # 根据排行范围删除
    

    zremrangebyscore(name, min, max)

    # 根据分数范围删除
    

    zremrangebylex(name, min, max)

    # 根据值返回删除
    

    zscore(name, value)

    # 获取name对应有序集合中 value 对应的分数
    

    zinterstore(dest, keys, aggregate=None)

    # 获取两个有序集合的交集,如果遇到相同值不同分数,则按照aggregate进行操作
    # aggregate的值为:  SUM  MIN  MAX
    

    zunionstore(dest, keys, aggregate=None)

    # 获取两个有序集合的并集,如果遇到相同值不同分数,则按照aggregate进行操作
    # aggregate的值为:  SUM  MIN  MAX
    

    zscan(name, cursor=0, match=None, count=None, score_cast_func=float)
    zscan_iter(name, match=None, count=None,score_cast_func=float)

    # 同字符串相似,相较于字符串新增score_cast_func,用来对分数进行操作
    

      

    其他常用操作

    delete(*names)

    # 根据删除redis中的任意数据类型
    

    exists(name)

    # 检测redis的name是否存在
    

    keys(pattern='*')

    # 根据模型获取redis的name
    
    # 更多:
        # KEYS * 匹配数据库中所有 key 。
        # KEYS h?llo 匹配 hello , hallo 和 hxllo 等。
        # KEYS h*llo 匹配 hllo 和 heeeeello 等。
        # KEYS h[ae]llo 匹配 hello 和 hallo ,但不匹配 hillo 
    

    expire(name ,time)

    # 为某个redis的某个name设置超时时间
    

    rename(src, dst)

    # 对redis的name重命名为
    

    move(name, db))

    # 将redis的某个值移动到指定的db下
    

    randomkey()

    # 随机获取一个redis的name(不删除)
    

    type(name)

    # 获取name对应值的类型
    

    scan(cursor=0, match=None, count=None)
    scan_iter(match=None, count=None)

    # 同字符串操作,用于增量迭代获取key
    

     

    4.5  发布和订阅:但比rabbitmq弱很多

    import redis
    pool = redis.ConnectionPool(host='192.168.11.81', port=6379,)
    conn = redis.Redis(connection_pool=pool)
    conn.publish('fm104.5','sb')
    s5.py:发布
    import redis
    pool = redis.ConnectionPool(host='192.168.11.81', port=6379)
    conn = redis.Redis(connection_pool=pool)
    pb = conn.pubsub()
    pb.subscribe('fm104.5')
    
    
    while True:
        msg = pb.parse_response()
        print(msg)
    s6.py、s7.py:订阅
    运行s6.py、s7.py,然后运行s5.py实现发布和订阅。
    

      

    四、 scrapy-redis插件实现简单分布式爬虫

    scrapy-redis插件用于将scrapy和redis结合实现简单分布式爬虫:
    	- 定义调度器
    	- 定义去重规则: 本质利用redis 集合元素不重复(被调度器使用)	# 看源码request_seen函数
    
    pip3 install scrapy-redis
    

    1. redis配置文件settings.py

    #from scrapy_redis import defaults                         # 查看默认配置
    查看默认配置
    REDIS_HOST = '192.168.11.81'                            # 主机名
    REDIS_PORT = 6379                                       # 端口
    # REDIS_URL = 'redis://user:pass@hostname:9001'           # 连接URL(优先于以上配置)
    # REDIS_PARAMS  = {}                                      # Redis连接参数             默认:REDIS_PARAMS = {'socket_timeout': 30,'socket_connect_timeout': 30,'retry_on_timeout': True,'encoding': REDIS_ENCODING,})
    # REDIS_PARAMS['redis_cls'] = 'myproject.RedisClient'     # 指定连接Redis的Python模块  默认:redis.StrictRedis
    REDIS_ENCODING = "utf-8"                                # redis编码类型             默认:'utf-8'
    连接
    from scrapy_redis.scheduler import Scheduler
    SCHEDULER = "scrapy_redis.scheduler.Scheduler"        # 使用该调度器,scrapy-redis原生调度器被替换掉
    
    from scrapy_redis.queue import PriorityQueue
    from scrapy_redis import picklecompat
    SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue'              # 默认使用优先级队列(默认),其他:PriorityQueue(有序集合),FifoQueue(列表)、LifoQueue(列表)
    SCHEDULER_QUEUE_KEY = '%(spider)s:requests'                              # 调度器中请求存放在redis中的key
    SCHEDULER_SERIALIZER = "scrapy_redis.picklecompat"                      # 对保存到redis中的数据进行序列化,默认使用pickle
    SCHEDULER_PERSIST = True                                                  # 是否在关闭时候保留原来的调度器和去重记录,True=保留,False=清空
    SCHEDULER_FLUSH_ON_START = False                                          # 是否在开始之前清空 调度器和去重记录,True=清空,False=不清空。本地测试可以为true,实际工作中False
    SCHEDULER_IDLE_BEFORE_CLOSE = 10                                          # 去调度器中获取数据时,如果为空,最多等待时间(最后没数据,未获取到)。
    SCHEDULER_DUPEFILTER_KEY = '%(spider)s:dupefilter'                      # 去重规则,在redis中保存时对应的key
    SCHEDULER_DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'      # 去重规则对应处理的类
    调度器
    from scrapy_redis.pipelines import RedisPipeline
    
    ITEM_PIPELINES = {
       'scrapy_redis.pipelines.RedisPipeline': 300,
    }
    
    REDIS_ITEMS_KEY = '%(spider)s:items'
    REDIS_ITEMS_SERIALIZER = 'json.dumps'    # 指定下序列化
    数据持久化

    2.当url太长时,数据库保存占空间,创建唯一标识符

    from scrapy.utils import request
    from scrapy.http import Request
    
    
    obj1 = Request(url='http://www.baidu.com?id=1&name=3')
    obj2 = Request(url='http://www.baidu.com?name=3&id=1')        # 当传参一致时,创建的标识符也一样
    
    v = request.request_fingerprint(obj1)
    print(v)
    v = request.request_fingerprint(obj2)
    print(v)
    test.py

    3. 起始URL相关

    from scrapy_redis.pipelines import RedisSpider
    class ChoutiSpider(scrapy.RedisSpider):
        name = "chouti"
        allowed_domains = ["chouti.com"]
    
        def parse(self, response):
            for i in range(0,10):
                yield
    chouti.py:不用写起始url,但是这个爬虫不会终止, 不用redis的话爬虫下载完url后会终止。

    总结:

    1. memcached
    	
    2. Django缓存
    
    3. redis
    	- 连接
    		- StrictRedis()
    		- Redis(StrictRedis)	# 继承StrictRedis
    		- 连接池
    		
    	- 基本操作
    		..
    		
    	- 事务
    
    	- 发布和订阅
    	
    4. scrapy-redis流程
    	4.1 引擎,获取起始Request对象, 添加(pickle)到调度器
    		- scrapy内部调度器
    		- scrapy-redis调度器三个选择:先进先出列表,后进先出列表,有序集合
    
    	4.2 调度器通知下载器可以开始下载,去调度器中获取request对象(通过pickle存储request对象),下载器进行下载			
    	
    	4.3 爬虫parse方法,yield返回对象item或request
    		- item				交给pipeline处理
    		- request			交给调度去处理,调用DUPEFILTER_CLASS去检查是否已经访问过,来决定request重新放置调度器或者丢弃
    
    
    	
    
    	scrapy-redis扩种:
    		- 中间件
    		- 基于信号的扩展
    

     

    五、scrapy-redis示例

    # DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
    #
    #
    # from scrapy_redis.scheduler import Scheduler
    # from scrapy_redis.queue import PriorityQueue
    # SCHEDULER = "scrapy_redis.scheduler.Scheduler"
    # SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue'          # 默认使用优先级队列(默认),其他:PriorityQueue(有序集合),FifoQueue(列表)、LifoQueue(列表)
    # SCHEDULER_QUEUE_KEY = '%(spider)s:requests'                         # 调度器中请求存放在redis中的key
    # SCHEDULER_SERIALIZER = "scrapy_redis.picklecompat"                  # 对保存到redis中的数据进行序列化,默认使用pickle
    # SCHEDULER_PERSIST = True                                            # 是否在关闭时候保留原来的调度器和去重记录,True=保留,False=清空
    # SCHEDULER_FLUSH_ON_START = False                                    # 是否在开始之前清空 调度器和去重记录,True=清空,False=不清空
    # SCHEDULER_IDLE_BEFORE_CLOSE = 10                                    # 去调度器中获取数据时,如果为空,最多等待时间(最后没数据,未获取到)。
    # SCHEDULER_DUPEFILTER_KEY = '%(spider)s:dupefilter'                  # 去重规则,在redis中保存时对应的key
    # SCHEDULER_DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'# 去重规则对应处理的类
    #
    #
    #
    # REDIS_HOST = '10.211.55.13'                           # 主机名
    # REDIS_PORT = 6379                                     # 端口
    # # REDIS_URL = 'redis://user:pass@hostname:9001'       # 连接URL(优先于以上配置)
    # # REDIS_PARAMS  = {}                                  # Redis连接参数             默认:REDIS_PARAMS = {'socket_timeout': 30,'socket_connect_timeout': 30,'retry_on_timeout': True,'encoding': REDIS_ENCODING,})
    # # REDIS_PARAMS['redis_cls'] = 'myproject.RedisClient' # 指定连接Redis的Python模块  默认:redis.StrictRedis
    # REDIS_ENCODING = "utf-8"                              # redis编码类型             默认:'utf-8'
    配置文件
    import scrapy
    
    
    class ChoutiSpider(scrapy.Spider):
        name = "chouti"
        allowed_domains = ["chouti.com"]
        start_urls = (
            'http://www.chouti.com/',
        )
    
        def parse(self, response):
            for i in range(0,10):
                yield
    爬虫文件

     

  • 相关阅读:
    Powershell数据处理
    Powershell About Active Directory Group Membership of a domain user
    Powershell About Active Directory Server
    Oracle Schema Objects——Tables——TableStorage
    Oracle Schema Objects——Tables——TableType
    English Grammar
    Oracle Database Documentation
    Oracle Schema Objects——Tables——Oracle Data Types
    Oracle Schema Objects——Tables——Overview of Tables
    What is Grammar?
  • 原文地址:https://www.cnblogs.com/xuyaping/p/7760926.html
Copyright © 2011-2022 走看看