zoukankan      html  css  js  c++  java
  • [转] 强大的python字符串解析

    1.python字符串通常有单引号('...')、双引号("...")、三引号("""...""")或('''...''')包围,三引 号包含的字符串可由多行组成,一般可表示大段的叙述性字符串。在使用时基本没有差别,但双引号和三引号("""...""")中可以包含单引号,三引号 ('''...''')可以包含双引号,而不需要转义。
     
    2.用()对特殊字符转义,如()、(')、(")。
     
    3.常用字符串内置函数
      1)str.count()  //返回该字符串中某个子串出现的次数
      2)str.find()   //返回某个子串出现在该字符串的起始位置
      3)str.lower()  //将该字符串全部转化为小写
      4)str.upper()  //转为大写
      5)str.split()  //分割字符串,返回字串串列表,默认以空格分割
      6)len(str)     //返回字符串长度
      7)int(str)     //转成整型
      8)float(str)     //转成浮点型
     
      例如:
      >>> str = 'Hello, world'
      >>> str.count('o')
      >>> 2
      >>> str.find('lo')
      >>> 3
      >>> str.lower()
      >>> 'hello, world'
      >>> str.upper()
      >>> 'HELLO, WORLD'
      >>> str.split()
      >>> ['Hello,', 'world']
      >>> str.split(',')
      >>> ['Hello', ' world']
      >>> len(str)
      >>> 13
      >>> str
      >>> 'Hello, world'
      >>> a = "545.2222"
     >>> float(a)
    545.22220000000004
     >>> int(float(a))
    545
      以上所有操作都不会改变字符串本身!
     
    4.正则表达式,re模块
      import re
      常用函数:
      1)compile():   //将正则表达式字符串编译成正则re对象
      2)search()     //在目标字符串中匹配正则表达式
      3)match()      //从目标字符串第一个字符开始匹配正则表达
      search和match匹配成功返回MatchObject对象,失败返回None
     >>> p = re.compile('abc')
     >>> p.search('zabcy')
     <_sre.SRE_Match object at 0x2a95659030>
     不先编译成正则re对象也是可以的,上例也可以为:
     >>> re.search('abc','xabcy')
     <_sre.SRE_Match object at 0x2a95659098>
     
     compile还可加些标志位,例如:re.I(re.IGNORECASE)忽略大小写
     >>> p = re.compile('abc')
     >>> print p.search('xAbCy')
     None
     >>> p = re.compile('abc',re.I)
     >>> print p.search('xAbCy')
     <_sre.SRE_Match object at 0x2a9565a098>
     
     
     search和match区别见下例:
     >>> p = re.compile('abc')
     >>> print p.search('xxxabcyyy')
    <_sre.SRE_Match object at 0x2a95659030>
     >>> print p.match('xxxabcyyy')
     None
     >>> print p.match('abcyyy')
     <_sre.SRE_Match object at 0x2a95659098>
     
     
      4)split()      //类似字符串内置函数split()
       区别在于:内置split()以确定字符串分割,而正则split函数以正则表达式分割字

    例如:以空格(1个或者多个空格)分割:

     >>> p.split('a b   c  d')
    ['a', 'b', 'c', 'd']

    而内置split分割的结果为:

     >>> 'a b   c  d'.split(' ')
    ['a', 'b', '', '', 'c', '', 'd']

     
      5)findall()     //返回目标字符串中匹配正则表达式中所有子串列表

     >>> p = re.compile('^([a-z]{2}):([1-9]{3}):(.+)$')
    >>> p.findall('as:123:a12')
    [('as', '123', 'a12')]

     上例中正则表达式的子串为3个用括弧括起的,分别为:'[a-z]{2}'、'[1-9]{3}'、'.+', 分别被as、123、a12匹配,注意此返回的是匹配字符串元组的一维列表。

      以上比较常用的正则函数,更多用法请参照python手册。
     
    5.字符串与数字相互转换,string模块
      import string
      string.atoi(str[,base])  //base为可选参数,表示将字符转换成的进制类型
      数字转换成字符串可简单了,直接用str()
     
    6.字符与ASCII转换
      char->ascii  ord()
      ascii->char  chr()
     

    在许多编程语言中都包含有格式化字符串的功能,比如C和Fortran语言中的格式化输入输出。Python中内置有对字符串进行格式化的操作%。

     

    模板

    格式化字符串时,Python使用一个字符串作为模板。模板中有格式符,这些格式符为真实值预留位置,并说明真实数值应该呈现的格式。Python用一个tuple将多个值传递给模板,每个值对应一个格式符。

    比如下面的例子:

    print("I'm %s. I'm %d year old" % ('Vamei', 99))

    上面的例子中,

    "I'm %s. I'm %d year old" 为我们的模板。%s为第一个格式符,表示一个字符串。%d为第二个格式符,表示一个整数。('Vamei', 99)的两个元素'Vamei'和99为替换%s和%d的真实值。
    在模板和tuple之间,有一个%号分隔,它代表了格式化操作。

    整个"I'm %s. I'm %d year old" % ('Vamei', 99) 实际上构成一个字符串表达式。我们可以像一个正常的字符串那样,将它赋值给某个变量。比如:

    a = "I'm %s. I'm %d year old" % ('Vamei', 99)
    print(a)

     

    我们还可以用词典来传递真实值。如下:

    print("I'm %(name)s. I'm %(age)d year old" % {'name':'Vamei', 'age':99})

    可以看到,我们对两个格式符进行了命名。命名使用()括起来。每个命名对应词典的一个key。

     

    格式符

    格式符为真实值预留位置,并控制显示的格式。格式符可以包含有一个类型码,用以控制显示的类型,如下:

    %s    字符串 (采用str()的显示)

    %r    字符串 (采用repr()的显示)

    %c    单个字符

    %b    二进制整数

    %d    十进制整数

    %i    十进制整数

    %o    八进制整数

    %x    十六进制整数

    %e    指数 (基底写为e)

    %E    指数 (基底写为E)

    %f    浮点数

    %F    浮点数,与上相同

    %g    指数(e)或浮点数 (根据显示长度)

    %G    指数(E)或浮点数 (根据显示长度)

     

    %%    字符"%"

     

    可以用如下的方式,对格式进行进一步的控制:

    %[(name)][flags][width].[precision]typecode

    (name)为命名

    flags可以有+,-,' '或0。+表示右对齐。-表示左对齐。' '为一个空格,表示在正数的左侧填充一个空格,从而与负数对齐。0表示使用0填充。

    width表示显示宽度

    precision表示小数点后精度

     

    比如:

    print("%+10x" % 10)
    print("%04d" % 5)
    print("%6.3f" % 2.3)

     

    上面的width, precision为两个整数。我们可以利用*,来动态代入这两个量。比如:

    print("%.*f" % (4, 1.2))

    Python实际上用4来替换*。所以实际的模板为"%.4f"。

    总结

    Python中内置的%操作符可用于格式化字符串操作,控制字符串的呈现格式。Python中还有其他的格式化字符串的方式,但%操作符的使用是最方便的。

  • 相关阅读:
    [hdu-2048] 神、上帝以及老天爷
    or1200中IMMU分析(续)
    Java Applet读写client串口——终极篇
    树莓派_Linux串口编程_实现自发自收
    2014百度实习生面试题(部分)具体解释
    Leetcode
    eclipse+webservice开发实例
    现有一些开源ESB总线的比較
    《HTML5 从入门到精通--7.6.3 单元格垂直跨度——rowspan》
    百度究竟是哪国的公司
  • 原文地址:https://www.cnblogs.com/qiangxia/p/4785623.html
Copyright © 2011-2022 走看看