zoukankan      html  css  js  c++  java
  • Python 绝对简明手册

    简述

    1. 阅读须知

    文中使用

    >>>

    作为会命令行中的输出信息的前缀

    对于不清楚用用途的函数可以在解释器下面输入

    help(函数名)

    来获取相关信息

    另外,自带的文档和google也是不可少的

    2. 基本语法

    2.1. if / elif / else

    x=int(raw_input("Please enter an integer:"))#获取行输入

    if x>0:
    print '正数'
    elif x==0:
    print '零'
    else:
    print '负数'

    此外C语言中类似"xxx?xxx:xxx"在Python中可以这样写

    >>>number=8
    >>>print "good" if 8==number else "bad" #当满足if条件时返回"good",否则返回"bad"
    good

    2.2. in

    in判断 一个数 是否在 一个集合(如:元组,列表等) 中

    if 'yes' in  ('y','ye','yes'):print  'ok'

    2.3. for ... in

    python中没有类似C中的for循环,而是使用for...in来对集合中的每一个元素进行操作

    a=['cat','door','example']
    for x in a:
    print x

    如果要修改a的内容,请用a的副本循环(否则不安全),如:

    a=["cat","zsp007@gmail.com"]
    for x in a[:]:
    if len(x)>6:a.insert(0,x)
    >>>a
    ['zsp007@gmail.com', 'cat', 'zsp007@gmail.com']

    若需要得到循环的次数,参见 函数 range 的用法

    2.4. break / continue

    这两个的用法和C中相同

    for i in range(10):
    if 2==i:continue #结束当前循环,进入下一步循环
    if 6==i:break #跳出循环
    print i

    输出

    0
    1
    3
    4
    5

    2.5. while / pass

    while True:
    pass #什么也不做

    2.6. is

    用来比较两个变量是否指向同一内存地址(也就是两个变量是否等价) 而 == 是用来比较两个变量是否逻辑相等

    a=[1,2]
    b=[1,2]
    >>> a is b
    False
    >>> a == b
    True

    2.7. del

    用于删除元素

    a=[1,2,3,4,5,6]

    del a[0]
    a
    >>>[2,3,4,5,6]

    del a[2:4]
    a
    >>>[2,3,6]

    del a[:]
    a
    >>>[]

    del a
    a
    #抛出异常
    >>>NameError: name 'a' is not defined

    2.8. try ... except ... finally / raise

    try ... except用于异常处理

    try:
    x=int(raw_input("请输入数字:"))
    except ValueError: #可以同时捕获多个异常,写法如except(RuntimeError,ValueError):
    #当输入非数字时
    print"您输入不是数字"
    except: #省略异常名,可以匹配所有异常,慎用
    pass
    else:#当没有异常时
    print 'result=',result
    finally:#和Java中类似。一般用于释放资源,如文件,网络连接。
    print 'finish'

    raise用于抛出异常,可以为自定义的异常类

    惯例是以Error结尾的类,同类的异常一般派生自同一个基类(如Exception)

    class MyError(Exception):
    def __init__(self,value):
    self.value=value
    def __str__(self):
    return reper(self.value)

    基类异常可以匹配派生类异常

    try:
    raise Exception("spam","egg")
    except Exception,inst:#inst为该异常类的实例,为可选项
    print type(inst) #异常的类型
    print inst

    3. 内建类型

    3.1. None

    None 表示该值不存在,比如 没有定义返回值 的函数就 返回None

    3.2. Ture / False

    布尔类型,Ture等价于1,False等价于0

    3.3. List

    >>>test=[1,2,"yes"]

    3.3.1. 内建函数

    append(x) 追加到链尾

    extend(L) 追加一个列表,等价于+=

    insert(i,x) 在位置i插入x

    remove(x) 删除第一个值为x的元素,如果不存在会抛出异常

    reverse() 反转序列

    pop([i]) 返回并删除位置为i的元素,i默认为最后一个元素(i两边的[]表示i为可选的,实际不用输入)

    index(x) 返回第一个值为x的元素,不存在则抛出异常

    count(x) 返回x出现的次数

    sort() 排序

    例子:

    >>>test=[1,2,"yes"]

    >>>test.append(1) #追加到链尾
    >>>test
    [1, 2, 'yes', 1]

    >>>test.extend([ 'no','maybe']) #追加一个列表
    >>>test
    [1, 2, 'yes', 1, 'no', 'maybe']

    >>> test.insert(0,'never') #在位置0插入'never'
    >>> test
    ['never', 1, 2, 'yes', 1, 'no', 'maybe']

    >>> test.remove('no') #删除第一个值为"no"的元素,如果不存在会抛出异常
    >>> test
    ['never', 1, 2, 'yes', 1, 'maybe']

    >>> test.reverse() #反转序列
    >>> test
    ['maybe', 1, 'yes', 2, 1, 'never']

    >>> test.pop() #返回并删除位置为i的元素,i默认为最后一个元素
    'never'
    >>> test
    ['maybe', 1, 'yes', 2, 1]

    >>> test.index('yes') #返回第一个值为'yes'的元素,不存在则抛出异常
    2

    >>> test.count(1) #返回1出现的次数
    2

    >>>test.sort() #排序
    >>> test
    [1, 1, 2, 'maybe', 'yes']

    3.3.2. 切片

    从序列中抽取一部分

    >>> test=['never', 1, 2, 'yes', 1, 'no', 'maybe']

    >>> test[0:3] #包括test[0],不包括test[3]
    ['never', 1, 2]

    >>> test[0:6:2] #包括test[0],不包括test[6],而且步长为2
    ['never', 2, 1]

    >>> test[:-1] #包括开始,不包括最后一个
    ['never', 1, 2, 'yes', 1, 'no']

    >>> test[-3:] #抽取最后3个
    [1, 'no', 'maybe']

    >>>test[::-1] #倒序排列
    ['maybe', 'no', 1, 'yes', 2, 1, 'never']

    3.3.3. 列表推导式

    可以直接通过for循环生成一个list

    >>>freshfruit=['  banana  ','   loganberry  ']
    >>>[weapon.strip() for weapon in freshfruit]
    ['banana', 'loganberry']

    说明:strip()是去除字符串两端多于空格,该句是去除序列中的所有字串两端多余的空格

    >>>vec=[2,4,6]
    >>>[3*x for x in vec if x>3]
    [12, 18]
    >>>[(x,x**2) for x in vec]
    #循环变量要是一个sequence,而[x,x**2 for x in vec]是错误的
    [(2,4),(4,16),(6,36)]
    >>>vec2=[4,3,-9]

    >>>[x*y for x in vec for y in vec2]
    [8, 6, -18, 16, 12, -36, 24, 18, -54]

    >>>[vec[i]+vec2[i] for i in range(len(vec))]
    [6, 7, -3]
    >>>[str(round(355/113.0,i)) for i in range(1,6)]
    #str()是转换类型为可以打印的字符
    #round(x,n)表示对x保留n位小数(四舍五入)
    ['3.1', '3.14', '3.142', '3.1416', '3.14159']

    3.4. 元组

    一旦初始化便不能更改的数据结构,速度比list快

    >>>t=1234,5567,'hello' #t=(1234,5567,'hello')的简写

    >>>x,y,z=t #拆分操作可以应用于所有sequence
    >>>x
    1234

    >>>u=t,(1,2,3)
    >>>u
    ((1234,5567,'hello'),(1,2,3))

    >>>empty=() #空元组
    >>>singleton='hi', #单个元素的元组,注意逗号

    通过元组可以很简单的进行数据交换. 比如:

    a=1
    b=2
    a,b=b,a

    3.5. set

    set(集合):无序不重复的元素集

    >>>basket = ['apple','orange','apple','pear','apple','banana']

    >>>fruit=set(basket)

    >>>fruit
    set(['orange', 'pear', 'apple', 'banana'])

    >>>'orange' in fruit
    True

    >>>a=set('abracadabew')
    >>>a
    set(['a', 'c', 'b', 'e', 'd', 'r', 'w'])

    >>>b=set('wajgwaoihwb')
    >>>b
    set(['a', 'b', 'g', 'i', 'h', 'j', 'o', 'w'])

    >>>a-b #差
    set(['c', 'r', 'e', 'd'])

    >>>a|b #并
    set(['a', 'c', 'b', 'e', 'd', 'g', 'i', 'h', 'j', 'o', 'r', 'w'])

    >>>a&b #交
    set(['a', 'b', 'w'])

    >>>a^b #(并-交)
    set(['c', 'e', 'd', 'g', 'i', 'h', 'j', 'o', 'r'])

    3.6. dict

    字典:关键字为不可变类型,如字符串,整数,只包含不可变对象的元组.

    列表等不可以作为关键字.

    如果列表中存在关键字对,可以用dict()直接构造字典.而这样的列表对通常是由列表推导式生成的.

    >>>tel={'jack':4098,'sape':4139}

    >>>tel['guido']=4127

    >>>tel
    {'sape': 4139, 'jack': 4098, 'guido': 4127}

    >>>tel['jack'] #如果jack不存在,会抛出KeyError
    4098
    >>>a.get("zsp",5000) #如果"zsp"为tel的键则返回其值,否则返回5000

    >>>del tel['sape'] #删除键'sape'和其对应的值
    >>>tel.keys() #复制一份键的副本,同理tel.items()为值的副本
    ['jack', 'guido']

    >>>"jack" in tel #判断"jack"是否tel的键
    True
    >>>"zsp" not in tel
    True

    >>>for k,v in tel.iteritems():print k,v #同理tel.iterkeys()为键的迭代器,tel.itervalues()为值的迭代器
    jack 4098
    guido 4127

    >>>tel.copy() #复制一份tel
    {'jack': 4098, 'guido': 4127}

    >>> tel.fromkeys([1,2],0) #从序列生成并返回一个字典,其值为第二个参数(默认为None),不改变当前字典
    {1: 0, 2: 0}

    >>>tel.popitem() #弹出一项
    ('jack', 4098)

    4. 函数相关

    4.1. 函数定义 / 参数默认值

    def fib(n=2,a=1):#参数可以有默认值
    """这里给函数写文档注释"""
    for i in range(n):
    print a


    >>>f=fib #可以用一个变量表示函数
    >>>f(3)
    1
    1
    1

    >>>fib(a=2) #多个可选参数赋值可以直接写"参数变量名=值"来快速赋值
    2
    2

    4.2. Lambda函数

    一种无名函数的速写法

    def make_incrementor(n):
    return lambda x: x+n

    f=make_incrementor(n)
    #f等价于
    #def f(x):
    # return x+n

    4.3. 不定长参数 *para,**para

    参数格式为 *para 表示接受一个元组

    为 **para 表示接受一个字典

    *para要在**para之前

    def test(*args,**dic):
    for arg in args :
    print arg
    for k,v in dic.iteritems():
    print k ,':',v

    >>> test("yes",1,2,me="张沈鹏",where="中国") #"yes",1,2传递给元组;me="张沈鹏",where="中国"传递给字典
    yes
    1
    2
    me : 张沈鹏
    where : 中国

    4.4. @ 装饰器

    @A def B:pass 等价于 def B:pass B=A(B) 即将函数B作为参数传给参数A

    from time import time
    #测试运行时间
    def cost_time(func):
    def result(*args,**dic):
    beign=time()
    func(*args,**dic)
    print "cost time : ",time()-beign
    return result

    @cost_time
    def show(n):
    for x in range(n):print x

    >>> show(10)
    0
    1
    2
    3
    4
    5
    6
    7
    8
    9
    cost time : 0.0469999313354

    4.5. 生成器表达式

    生成器表达式:类似于没有中括号的列表推导式,可用在参数中

    >>>sum(i*i for i in range(10))
    285

    >>>unique_words=set(word for line in page for word in line.split())#page为打开的文件

    >>>data='golf'

    >>>list(data[i] for i in range(len (data)-1,-1,-1))
    ['f','l','o','g']

    4.6. yield

    每次调用返回一个值,并记录当前执行位置所有的变量

    def reverse(data):
    for index in range(len(data)-1,-1,-1):
    yield data[index]

    for char in reverse("golf"):
    print char,

    输出

    f l o g

    5. 常用函数

    5.1. eval

    对字符串参数运算,求值

    >>> eval("1 + 2*3") #可以方便的用来做四则运算
    7
    >>> a=1
    >>> eval('a+1') #可以访问变量
    2

    5.2. exec

    将字符串参数作为python脚本执行

    >>> exec('a="Zsp"')
    >>> a
    'Zsp'

    5.3. execfile

    和exec类似,不过是用来打开一个文件,并作为python脚本执行

    5.4. dir

    显示对象的所有属性(即可以用"."操作直接访问)

    >>> dir([])
    ['__add__', '__class__', '__contains__', '__delattr__', '__delitem__', '__delslice__', '__doc__', '__eq__', '__ge__', '__getattribute__', '__getitem__', '__getslice__', '__gt__', '__hash__', '__iadd__', '__imul__', '__init__', '__iter__', '__le__', '__len__', '__lt__', '__mul__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__reversed__', '__rmul__', '__setattr__', '__setitem__', '__setslice__', '__str__', 'append', 'count', 'extend', 'index', 'insert', 'pop', 'remove', 'reverse', 'sort']

    5.5. help

    help(类/函数) 返回相应对象的文档字符串

    >>> help(vars)
    Help on built-in function vars in module __builtin__:

    vars(...)
    vars([object]) -> dictionary

    Without arguments, equivalent to locals().
    With an argument, equivalent to object.__dict__.

    5.6. len

    返回序列/字典的长度

    >>> len([1,2,3])
    3

    5.7. print

    输出字符串 用法演示:

    print "Today ", #加逗号,输出后不换行

    name="ZSP"

    print name,"cost $",10 #输出多个变量

    print "hello,%s!"%name #%s 表示用str转化为字符串

    for x in xrange(1,11):
    print '%2d %3d' % (x,x*x) #小数输出如 %5.3f

    对于字典可以用变量名来直接格式化,如:

    >>>table={'Sjoerd':4127,'Jack':4098,'Dcab':8637678}
    >>>print 'Jack:%(Jack)d; Sjoerd:%(Sjoerd)d; Dcab:%(Dcab)d' %
    table
    Jack:4098; Sjoerd:4127; Dcab:8637678

    同时,函数vars()返回包含所有变量的字典,配合使用,无坚不摧!

    5.8. raw_input

    x=raw_input("Please enter an sentence:") #将输入的内容赋值给x

    5.9. range

    range(10,0,-3)#参数的含义为起点(默认为0),终点(不含终点),步长(默认为1)
    >>>[10,7,4,1]

    和for...in配合使用

    a=['cat','door','example']
    for i in range(len(a)):#len()函数为求序列的长度
    print i,a[i]

    5.10. filter

    filter(function , sequence) 返回序列,为原序列中能使function返回true的值

    >>>a=[1,2,3,4]
    >>>filter(lambda x:x%2,a)
    [1, 3]

    5.11. map

    map(function,sequence,[sequence...])

    返回序列,为对原序列每个元素分别调用function获得的值.

    可以传入多个序列,但function也要有相应多的参数,如

    map(lambda x,y,z:x+y+z,range(1,3),range(3,5),range(5,7))

    计算过程为

    1+3+5=9

    2+4+6=12

    返回[9,12]

    5.12. reduce

    reduce(function,sequence,[init])

    返回一个单值为,计算步骤为 :

    • 第1个结果=function(sequence[0],sequence[1])
    • 第2个结果=function(第1个结果,sequence[2])
    • 返回最后一个计算得值
    • 如果有init,则先调用function(init,sequence[0]) 

    • sequence只有一个元素时,返回该元素,为空时抛出异常.

    reduce(lambda x,y:x+y,range(3),99) 的计算为

    99+0=99 => 99+1=100 => 100+2=102

    返回102

    注:实际使用中用内建函数sum来完成这个累加更合适,如这里等价sum(range(3),99)

    5.13. zip

    zip用于多个sequence的循环

    questions=['name','quest','favorite color']
    answers=['lancelot','the holy grail','blue']

    for q,a in zip(questions,answers):
    print 'What is your %s ? It is %s.'%(q,a)

    输出:

    What is your name ? It is lancelot.
    What is your quest ? It is the holy grail.
    What is your favorite color ? It is blue.

    5.14. reversed反向循环

    for i in reversed(range(1,4)):
    print i

    输出:

    3
    2
    1

    5.15. sorted排序

    返回一个有序的新序列

    >>>sorted([2,5,1,4])
    [1, 2, 4, 5]

    5.16. enumerate 返回索引位置和对应的值

    for i,v in enumerate(['tic','tac','toe'])
    print i,v

    输出:

    0 tic
    1 tac
    2 toe

    5.17. open/文件操作

    f=open('/tmp/hello','w')

    #open(路径+文件名,读写模式)

    #读写模式:r只读,r+读写,w新建(会覆盖原有文件),a追加,b二进制文件.常用模式

    如:'rb','wb','r+b'等等

    f.read([size]) size未指定则返回整个文件,如果文件大小>2倍内存则有问题.f.read()读到文件尾时返回""(空字串)

    file.readline() 返回一行

    file.readline([size]) 返回包含size行的列表,size 未指定则返回全部行

    for line in f: print line #通过迭代器访问

    f.write("hello\n") #如果要写入字符串以外的数据,先将他转换为字符串.

    f.tell() 返回一个整数,表示当前文件指针的位置(就是到文件头的比特数).

    f.seek(偏移量,[起始位置])

    用来移动文件指针

    偏移量:单位:比特,可正可负

    起始位置:0-文件头,默认值;1-当前位置;2-文件尾

    f.close() 关闭文件

    6. 模块化

    6.1. 导入模块

    模块的查找路径

    1.当前的目录

    2.环境变量PYTHONPATH所指的目录列表

    3.python解释器的安装目录

    如将代码保存上述的一个目录中的的fibo.py文件中,便可以

    import fibo
    fibo.function()

    如果想直接使用fibo.function可以重命名这个函数,如

    f=fibo.function
    f()

    也可以

    form fibo import function
    function()

    甚至可以form fibo import * 

    可以 form 包.子包.模块 imort 函数 

    然后就直接使用该函数,不需要加前缀

    6.2. 包

    引用推荐写法为

    form 包 import 模块

    几个功能类似的模块可以组合成一个包,

    比如一个可以处理.wav,.mp3,.wma等音频文件的有类似如下结构:

    Sound/
    __init__.py
    Formats/
    __init__.py
    wavread.py
    wavwrite.py
    mp3read.py
    mp3write.py
    wmaread.py
    wmawrite.py
    Effects/
    __init__.py
    echo.py
    surround.py
    reverse.py

    只有当init.py存在时python才将该文件夹视为一个包.

    该文件可以为空文件 一般在init.py文件中定义一个all列表,包含要import *时要导入的模块. 如Sound/Effects/init.py可以有如下内容

    __all__=["echo","surround","reverse"]

    包的作者在发布包时可以更新这个列表,也可以根据需要让某个模块不支持import *

    对于包中同一个文件夹下的模块可以把

    form 包.子包 imort 模块

    简写为 imort 模块

    6.3. 面向对象

    6.3.1. 概要

    class ClassName:
    "类文档,可以通过类名.__doc__访问"
    def f(self):#self为每个类函数的必要的一个参数,可以通过它来访问当前实例
    return self.content

    def __init__(self,word=''):#构造函数
    #构造函数,可以初始化变量,可以有参数"
    self.content=word
    self.__name=word #私有变量,以"__"开头,不以"__"结尾的变量

    创建类实例 x=ClassName("good")

    6.3.2. 类继承

    class DerivedClassName(BassClassName):

    • pass

    如果基类定义在另一个模块中, 要写成

    modname.BaseClassName

    派生类的函数会覆盖基类的同名函数

    如果想扩充而不是改写基类的函数,可以这样调用基类函数

    BaseClassName.methodname(self,arguments)

    注意:该基类要在当前全局域或被导入

    class A:
    def hi(self):
    print "A"
    class B:
    def hi(self):
    A.hi(self)
    super(B).hi() #通过super关键字可以获得当前类的基类
    print "B"

    B().hi()

    输出

    A
    B

    6.3.3. 多重继承

    类多继承

    class DerivedClassName(Base1,Base2,Base3):
    pass

    对于该类函数的解析规则是深度优先,先是Base1,然后是Base1的基类,诸如此类.

    class A:
    def hi(self):
    print "A"

    class B:
    def hi(self):
    print "B"

    class C(A,B):
    pass

    C().hi()

    输出:

    A

    6.4. 操作符重载

    通过定义类的一些约定的以""开头并结尾的函数,可以到达重载一些特定操作的目的,下面是是一些常用的重载

    6.4.1. __str__ / __unicode__

    当print一个对象实例时,实际是print该实例

    str()函数的返回值.
    class A:
    def __str__(self):
    return "A"
    def __unicode__(self):
    return "uA"

    print A()
    print unicode(A())

    输出

    A
    uA
    unicode和str类似,不过返回Unicode字符串.

    6.4.2. 比较操作

    x<y x.

    lt(y)

    x<=y x.

    le(y)

    x==y x.

    eq(y)

    x!=y 或 x<>y x.

    ne(y)

    x>y x.

    gt(y)

    x>=y x.

    ge(y) cmp( self, other) 用来简化比较函数的定义 self < other返回负数,相等时返回0,self>other时返回正数
    class A:
    def __init__(self,i):
    self.i=i
    def __cmp__(self,other):
    return self.i-other.i

    print A(1)>A(2)

    输出

    False

    6.4.3. __iter__

    for ... in 循环即就是通过这个函数遍历当前容器的对象实例 可配合yield方便的编写这个函数(参见基本语法yield)

    class A:
    def __init__(self,n):
    self.n=n
    def __iter__(self):
    n=self.n
    while n:
    m=n%2
    n/=2
    yield m

    for i in A(5):
    print i,

    输出

    1 0 1 

    另有一种繁琐的实现: 返回一个可以通过next()函数遍历的对象,当结束时抛出StopIteration异常

    6.5. 类相关函数

    6.5.1. type

    返回对象的类型

    >>> type("")
    <type 'str'>
    >>> type("")==str
    True

    >>> type([])
    <type 'list'>
    >>> type([])==list
    True

    >>> type({})
    <type 'dict'>

    >>> type(())
    <type 'tuple'>

    >>> class A:pass

    >>> type(A)
    <type 'classobj'>

    >>> type(A())
    <type 'instance'>

    >>> import types #在types模块中有许多类型的定义

    >>> type(A)==types.ClassType
    True

    6.5.2. getattr / hasattr /delattr

    getattr:通过类实例和一个字符串动态的调用类函数/属性

    class A:
    def name(self):
    return "ZSP"
    def hello(self):
    return "nice to meet me ."

    def say(obj,attr):
    print getattr(obj,attr)()

    a=A()
    say(a,"name")
    say(a,"hello")

    输出

    ZSP
    nice to meet me .

    hasattr 用来判断实例有无该函数/属性

    delattr 用来删除实例的函数/属性

    6.5.3. property

    通过值的方式调用实例无参函数

    class A(object):
    def __init__(self): self._x = None
    def getx(self): return self._x
    def setx(self, value): self._x = value
    def delx(self): self._x=None
    x = property(getx, setx, delx, "I'm the 'x' property.")
    a=A()
    print a.x

    a.x="ZSP"
    print a.x

    del a.x
    print a.x

    输出

    None
    ZSP
    None

    可以方便的定义一个只读属性

    class A(object):
    @property
    def x(self): return "Property"

    调用

    >>>a=A()

    >>>print a.x
    Property

    >>>a.x="ZSP" #只读属性,不能更改
    Traceback (most recent call last):
    File "D:\Profile\Untitled 2.py", line 9, in <module>
    a.x="ZSP"
    AttributeError: can't set attribute

    6.5.4. isinstance( object, classinfo)

    判断一个对象是否是一个类的实例

    >>>class A:pass

    >>>class B:pass

    >>>a=A()

    >>>isinstance(a,A)
    True

    >>>isinstance(a,B)
    False

    Python 常用模块体验 ::-- ZoomQuiet [2007-11-10 06:37:48]

    CPUG联盟::

    CPUG::门户plone

    BPUG

    SPUG

    ZPUG

    SpreadPython Python宣传

    7. Py常用模块汇编

    'Python 标准库2.0 整理者

    Python 江湖 QQ 群: 43680167
    Feather (校对) gt: andelf@gmail.com

    一些有用的Python函式庫列表 » 程式設計 遇上 小提琴

    ::-- ZoomQuiet [2007-11-10 07:39:01]

    CPUG联盟::

    CPUG::门户plone

    BPUG

    SPUG

    ZPUG

    SpreadPython Python宣传

    7.1. zshelve 对象持久模块

    {{{Jiahua Huang <jhuangjiahua@gmail.com> reply-to python-cn@googlegroups.com, to "python. cn" <python-cn@googlegroups.com>, date Nov 8, 2007 5:41 PM subject [CPyUG:34726] 贴个 zlib 压缩的 zshelve 对象持久模块 }}} 这个给 Python 标准库的 shelve.py 添加了 zlib 压缩, 减小数据库文件体积,以改善磁盘 io 性能

    7.1.1. 发布

    http://zshelve.googlecode.com/svn/trunk/

    加了个命令行工具:

    huahua@huahua:tmp$ zshelve
    commandline tool for zshelve databases

    Usage: zshelve FILE dump Dump the data tree
    zshelve FILE keys List of keys
    zshelve FILE get KEY Dump value for key
    zshelve FILE set KEY VALUE Set db[key] = value
    zshelve FILE has_key KEY True if database has the key
    zshelve FILE search_key KEY Search key
    zshelve FILE search_value VALUE Search value

    huahua@huahua:tmp$ zshelve set tes.db a 1
    huahua@huahua:tmp$ zshelve dump tes.db
    |- a
    | | - 1
    huahua@huahua:tmp$ zshelve set tes.db b "dict(a=1,b=2,c=3,d={'s':'4'})"
    huahua@huahua:tmp$ zshelve dump tes.db
    |- a
    | |- 1
    |- b
    | |- a
    | | |- 1
    | |- c
    | | |- 3
    | |- b
    | | |- 2
    | |- d
    | | |- s
    | | | |- 4

    对比::

    >>> import zshelve
    >>> import shelve
    >>> zdb = zshelve.open('/tmp/zshelve.db')
    >>> db = shelve.open('/tmp/shelve.db')
    >>> zdb['1'] = dict(a='0123456789'*10000000)
    >>> db['1'] = dict(a='0123456789'*10000000)
    >>> zdb.sync()
    >>> db.sync()

    看看文件大小差异::

    huahua@huahua:zshelve$ ll /tmp/*shelve.db
    -rw-r--r-- 1 huahua huahua 96M 2007-11-08 17:36 /tmp/shelve.db
    -rw-r--r-- 1 huahua huahua 204K 2007-11-08 17:36 /tmp/zshelve.db

    7.1.2. 补丁::

    --- shelve.py   2007-05-03 00:56:36.000000000 +0800
    +++ zshelve.py 2007-11-08 17:25:59.000000000 +0800
    @@ -70,6 +70,7 @@ except ImportError:

    import UserDict
    import warnings
    +import zlib ## use zlib to compress dbfile

    __all__ = ["Shelf","BsdDbShelf","DbfilenameShelf","open"]

    @@ -80,13 +81,14 @@ class Shelf(UserDict.DictMixin):
    See the module's __doc__ string for an overview of the interface.
    """

    - def __init__(self, dict, protocol=None, writeback=False):
    + def __init__(self, dict, protocol=None, writeback=False, compresslevel=2):
    self.dict = dict
    if protocol is None:
    protocol = 0
    self._protocol = protocol
    self.writeback = writeback
    self.cache = {}
    + self.compresslevel = compresslevel

    def keys(self):
    return self.dict.keys()
    @@ -109,7 +111,7 @@ class Shelf(UserDict.DictMixin):
    try:
    value = self.cache[key]
    except KeyError:
    - f = StringIO(self.dict[key])
    + f = StringIO(zlib.decompress(self.dict[key]))
    value = Unpickler(f).load()
    if self.writeback:
    self.cache[key] = value
    @@ -121,7 +123,7 @@ class Shelf(UserDict.DictMixin):
    f = StringIO()
    p = Pickler(f, self._protocol)
    p.dump(value)
    - self.dict[key] = f.getvalue()
    + self.dict[key] = zlib.compress(f.getvalue(), self.compresslevel)

    def __delitem__(self, key):
    del self.dict[key]
    @@ -168,32 +170,32 @@ class BsdDbShelf(Shelf):
    See the module's __doc__ string for an overview of the interface.
    """

    - def __init__(self, dict, protocol=None, writeback=False):
    - Shelf.__init__(self, dict, protocol, writeback)
    + def __init__(self, dict, protocol=None, writeback=False, compresslevel=2):
    + Shelf.__init__(self, dict, protocol, writeback, compresslevel)

    def set_location(self, key):
    (key, value) = self.dict.set_location(key)
    - f = StringIO(value)
    + f = StringIO(zlib.decompress(value))
    return (key, Unpickler(f).load())

    def next(self):
    (key, value) = self.dict.next()
    - f = StringIO(value)
    + f = StringIO(zlib.decompress(value))
    return (key, Unpickler(f).load())

    def previous(self):
    (key, value) = self.dict.previous()
    - f = StringIO(value)
    + f = StringIO(zlib.decompress(value))
    return (key, Unpickler(f).load())

    def first(self):
    (key, value) = self.dict.first()
    - f = StringIO(value)
    + f = StringIO(zlib.decompress(value))
    return (key, Unpickler(f).load())

    def last(self):
    (key, value) = self.dict.last()
    - f = StringIO(value)
    + f = StringIO(zlib.decompress(value))
    return (key, Unpickler(f).load())


    @@ -204,12 +206,12 @@ class DbfilenameShelf(Shelf):
    See the module's __doc__ string for an overview of the interface.
    """

    - def __init__(self, filename, flag='c', protocol=None, writeback=False):
    + def __init__(self, filename, flag='c', protocol=None,
    writeback=False, compresslevel=2):
    import anydbm
    - Shelf.__init__(self, anydbm.open(filename, flag), protocol, writeback)
    + Shelf.__init__(self, anydbm.open(filename, flag), protocol,
    writeback, compresslevel)


    -def open(filename, flag='c', protocol=None, writeback=False):
    +def open(filename, flag='c', protocol=None, writeback=False, compresslevel=2):
    """Open a persistent dictionary for reading and writing.

    The filename parameter is the base filename for the underlying
    @@ -222,4 +224,4 @@ def open(filename, flag='c', protocol=No
    See the module's __doc__ string for an overview of the interface.
    """

    - return DbfilenameShelf(filename, flag, protocol, writeback)
    + return DbfilenameShelf(filename, flag, protocol, writeback, compresslevel)

    ::-- ZoomQuiet [2007-11-10 07:34:49]

    7.2. fast UserDict

    {{{Jiahua Huang <jhuangjiahua@gmail.com> reply-to python-cn@googlegroups.com, to "python. cn" <python-cn@googlegroups.com>, date Nov 10, 2007 3:28 PM subject [CPyUG:34791] 一行代码让 UserDict.UserDict 的类加速 4 倍 }}} 发现 Python 标准库里好些字典类从 UserDict.UserDict 派生, 而不是从 dict 派生, 是因为 旧版 python 内建类型不能派生子类,

    那么这会不会影响速度呢,

    先给两个分别继承 UserDict.UserDict 和 dict 的类 URdict, Rdict

    >>> import UserDict
    >>> class URdict(UserDict.UserDict):
    ... '''dict can search key by value
    ... '''
    ... def indexkey4value(self, value):
    ... '''search key by value
    ... >>> rd = Rdict(a='One', b='Other', c='What', d='Why', e='Other')
    ... >>> rd.indexkey4value('Other')
    ... 'b'
    ... '''
    ... try:
    ... ind = self.values().index(value)
    ... return self.keys()[ind]
    ... except:
    ... return None
    ... def key4value(self, svalue):
    ... '''search key by value
    ... >>> rd = Rdict(a='One', b='Other', c='What', d='Why', e='Other')
    ... >>> rd.key4value('Other')
    ... 'b'
    ... '''
    ... for key, value in self.iteritems():
    ... if value == svalue:
    ... return key
    ... def keys4value(self, svalue):
    ... '''search keys by value
    ... >>> rd = Rdict(a='One', b='Other', c='What', d='Why', e='Other')
    ... >>> rd.keys4value('Other')
    ... ['b', 'e']
    ... '''
    ... keys=[]
    ... for key, value in self.iteritems():
    ... if value == svalue:
    ... keys.append(key)
    ... return keys
    ...
    >>>
    >>> class Rdict(dict):
    ... '''dict can search key by value
    ... '''
    ... def indexkey4value(self, value):
    ... '''search key by value
    ... >>> rd = Rdict(a='One', b='Other', c='What', d='Why', e='Other')
    ... >>> rd.indexkey4value('Other')
    ... 'b'
    ... '''
    ... try:
    ... ind = self.values().index(value)
    ... return self.keys()[ind]
    ... except:
    ... return None
    ... def key4value(self, svalue):
    ... '''search key by value
    ... >>> rd = Rdict(a='One', b='Other', c='What', d='Why', e='Other')
    ... >>> rd.key4value('Other')
    ... 'b'
    ... '''
    ... for key, value in self.iteritems():
    ... if value == svalue:
    ... return key
    ... def keys4value(self, svalue):
    ... '''search keys by value
    ... >>> rd = Rdict(a='One', b='Other', c='What', d='Why', e='Other')
    ... >>> rd.keys4value('Other')
    ... ['b', 'e']
    ... '''
    ... keys=[]
    ... for key, value in self.iteritems():
    ... if value == svalue:
    ... keys.append(key)
    ... return keys
    ...
    >>>

    >>> import time
    >>> def _timeit(_src):
    ... exec('''
    ... _t0 = time.time()
    ... %s
    ... _t1 = time.time()
    ... _t3 = _t1 - _t0
    ... '''%_src)
    ... return _t3
    ...
    >>> ran = range(100000)

    再弄俩实例
    >>> u = URdict()
    >>> r = Rdict()

    看看插入速度
    >>> _timeit("for i in ran: u[i]=i")
    0.1777961254119873
    >>> _timeit("for i in ran: r[i]=i")
    0.048948049545288086

    看看原始 dict 的速度
    >>> _timeit("for i in ran: d[i]=i")
    0.041368961334228516

    可以看到, UserDict.UserDict 确实严重影响速度,

    python 标准库里边好多 UserDict 的都应该换成 dict , 以提高性能

    不过,一个个修改 Python 标准库似乎又不合适,

    再次使用一招鲜,直接干掉 UserDict

    在使用/导入那些模块前先来一行

    >>> import UserDict; UserDict.UserDict = dict

    完了再导入模块来试试

    >>> u = URdict()
    >>> _timeit("for i in ran: u[i]=i")
    0.042366981506347656

    一行代码让速度提高 4 倍

  • 相关阅读:
    Ubuntu adb devices :???????????? no permissions (verify udev rules) 解决方法
    ubuntu 关闭显示器的命令
    ubuntu android studio kvm
    ubuntu 14.04版本更改文件夹背景色为草绿色
    ubuntu 创建桌面快捷方式
    Ubuntu 如何更改用户密码
    ubuntu 14.04 返回到经典桌面方法
    ubuntu 信使(iptux) 创建桌面快捷方式
    Eclipse failed to get the required ADT version number from the sdk
    Eclipse '<>' operator is not allowed for source level below 1.7
  • 原文地址:https://www.cnblogs.com/end/p/2030946.html
Copyright © 2011-2022 走看看