zoukankan      html  css  js  c++  java
  • Python3 如何优雅地使用正则表达式(详解六)

    修改字符串

    我们已经介绍完如何对字符进行搜索,接下来我们讲讲正则表达式如何修改字符串。

    正则表达式使用以下方法修改字符串:

    方法 用途
    split() 在正则表达式匹配的地方进行分割,并返回一个列表
    sub() 找到所有匹配的子字符串,并替换为新的内容
    subn() 跟 sub() 干一样的勾当,但返回新的字符串以及替换的数目



    分割字符串

    正则表达式的 split() 方法将字符串在匹配的地方进行分割,并将分割后的结果作为列表返回。它的做法其实很像字符串的 split() 方法,但这个可以使用更加广泛的分隔符。你猜的没错,它同时提供了一个模块级别的函数:re.split()

    .split(string[, maxsplit=0])

    通过正则表达式匹配来分割字符串。如果在 RE 中,你使用了捕获组,那么它们的内容会作为一个列表返回。你可以通过传入一个 maxsplit 参数来设置分割的数量。如果 maxsplit 的值是非 0,表示至多有 maxsplit 个分割会被处理,剩下的内容作为列表的最后一个元素返回。


    下边例子中,分隔符是任何非字母数字字符:

    1. >>> p = re.compile(r'W+')
    2. >>> p.split('This is a test, short and sweet, of split().')
    3. ['This', 'is', 'a', 'test', 'short', 'and', 'sweet', 'of', 'split', '']
    4. >>> p.split('This is a test, short and sweet, of split().', 3)
    5. ['This', 'is', 'a', 'test, short and sweet, of split().']
    复制代码


    有时候你可能不仅对分隔符之间的内容感兴趣,你可能对分隔符本身(就是正则表达式匹配的内容)也同样感兴趣。如果使用了捕获组,那么作为分隔符的值也会被返回:

    1. >>> p = re.compile(r'W+')
    2. >>> p2 = re.compile(r'(W+)')
    3. >>> p.split('This... is a test.')
    4. ['This', 'is', 'a', 'test', '']
    5. >>> p2.split('This... is a test.')
    6. ['This', '... ', 'is', ' ', 'a', ' ', 'test', '.', '']
    复制代码


    模块级别的函数 re.split() 除了将 RE 作为第一个参数外,其他参数是一样的:

    1. >>> re.split('[W]+', 'Words, words, words.')
    2. ['Words', 'words', 'words', '']
    3. >>> re.split('([W]+)', 'Words, words, words.')
    4. ['Words', ', ', 'words', ', ', 'words', '.', '']
    5. >>> re.split('[W]+', 'Words, words, words.', 1)
    6. ['Words', 'words, words.']
    复制代码



    搜索和替换

    另一个常见的任务就是找到所有的匹配部分,并替换成不同的字符串。sub 方法可以帮你实现这个愿望!sub 方法有一个replacement 参数,它可以是一个待替换的字符串,或者一个处理字符串的函数。

    .sub(replacementstring[, count=0])

    返回一个字符串,这个字符串从最左边开始,所有 RE 匹配的地方都替换成 replacement。如果没有找到任何匹配,那么返回原字符串。

    可选参数 count 指定最多替换的次数,必须是一个非负值。默认值是 0,意思是替换所有找到的匹配。


    下边是使用 sub() 方法的例子,它会将所有的颜色替换成 color

    1. >>> p = re.compile( '(blue|white|red)')
    2. >>> p.sub( 'colour', 'blue socks and red shoes')
    3. 'colour socks and colour shoes'
    4. >>> p.sub( 'colour', 'blue socks and red shoes', count=1)
    5. 'colour socks and red shoes'
    复制代码


    subn() 方法跟 sub() 方法干同样的勾当,但区别是返回值为一个包含有两个元素的元组:一个是替换后的字符串,一个是替换的数目。

    1. >>> p = re.compile( '(blue|white|red)')
    2. >>> p.subn( 'colour', 'blue socks and red shoes')
    3. ('colour socks and colour shoes', 2)
    4. >>> p.subn( 'colour', 'no colours at all')
    5. ('no colours at all', 0)
    复制代码


    空匹配只有在它们没有紧挨着前一个匹配时才会被替换掉:

    1. >>> p = re.compile('x*')
    2. >>> p.sub('-', 'abxd')
    3. '-a-b-d-'
    复制代码


    如果 replacement 参数是一个字符串,那么里边的反斜杠都会被处理。比如   将会被转换成一个换行符,  转换成回车,等等。未知的转义如 j 保持原样。逆向引用如 6,则被 RE 中相应的捕获组匹配的内容所替换。这使你可以在替换后的字符串中插入一部分原字符串。

    下边例子中,将匹配被 { 和 } 括起来的单词 section,并将 section 替换成 subsection

    1. >>> p = re.compile('section{ ( [^}]* ) }', re.VERBOSE)
    2. >>> p.sub(r'subsection{1}','section{First} section{second}')
    3. 'subsection{First} subsection{second}'
    复制代码


    小甲鱼解释:1. 大家还记得吗?这里开启了 re.VERBOSE,空格将被忽略。因为这里一堆符号,用空格隔开看着才不会乱糟糟的......2. 这里 r'subsection{1}' 使用 1 引用匹配模式中的 ([^}]*) 匹配的字符串内容。

    还可以使用 Python 的扩展语法 (?P<name>...) 指定命名组,引用命名组的语法是 g<name>g<name> 会将名字为name 的组匹配的字符串替换进去。另外,g<数字> 是通过组的序号进行引用。g<2> 其实就相当于 2,但我们更提倡使用 g<2>,因为这样可以避免歧义。例如,g<2>0 的含义是引用序号为 2 的组,然后后边匹配一个字符 '0',而你写成20 就会被认为是引用序号为 20 的组了。

    1. >>> p = re.compile('section{ (?P<name> [^}]* ) }', re.VERBOSE)
    2. >>> p.sub(r'subsection{1}','section{First}')
    3. 'subsection{First}'
    4. >>> p.sub(r'subsection{g<1>}','section{First}')
    5. 'subsection{First}'
    6. >>> p.sub(r'subsection{g<name>}','section{First}')
    7. 'subsection{First}'
    复制代码


    有时候你可能不满足简单的字符串替换,你可能需要在替换的过程中动点“手脚”......没关系,一样可以满足你!replacement 参数还可以是一个函数,该函数将会在正则表达式模式每次不重复匹配的时候被调用。在每次调用时,函数会收到一个匹配对象的参数,因此你就可以利用这个对象去计算出新的字符串并返回它。

    下边的例子中,替换函数将十进制数替换为十六进制数:

    1. >>> def hexrepl(match):
    2. ...     "Return the hex string for a decimal number"
    3. ...     value = int(match.group())
    4. ...     return hex(value)
    5. ...
    6. >>> p = re.compile(r'd+')
    7. >>> p.sub(hexrepl, 'Call 65490 for printing, 49152 for user code.')
    8. 'Call 0xffd2 for printing, 0xc000 for user code.'
    复制代码


    当使用模块级的 re.sub() 函数时,正则表达式模式作为第一个参数。该模式可以是一个字符串或一个编译好的对象。如果你需要指定正则表达式标志,那么你必须使用后者;或者使用模式内嵌修正器,例如 sub("(?i)b+", "x", "bbbb BBBB") 返回 'x x'

  • 相关阅读:
    Linux文件及目录查找
    英语单词independent
    英语单词omitting
    英语单词deploy
    英语单词debug
    线程
    进程
    操作系统历史
    分布式爬虫
    爬虫基础
  • 原文地址:https://www.cnblogs.com/LoveFishC/p/4218422.html
Copyright © 2011-2022 走看看