zoukankan      html  css  js  c++  java
  • 正则表达式-入门初探

    最近处理数据,看开源代码满屏幕的正则表达式,脑壳疼。

    花了一整天时间看 菜鸟教程 的正则表达式……感觉写的有点过于详细,而且顺序也让我很迷惑……

    于是自己写点总结吧。

    • 我觉得首先要搞懂的是,正则表达式其实就是一个字符串的模板,用来在字符串中寻找符合条件的子串。下面是一个最简单的例子,用来在字符串中寻找‘1234’子串。
    import re
    
    myre = re.compile(r'1234')
    
    mystr = 'xx1234yy'
    
    myres = myre.search(mystr)
    
    print(myres)
    
    '''
    <_sre.SRE_Match object; span=(2, 6), match='1234'>
    '''
    start
    • 相信大家开始学正则表达式的时候,肯定是突然有一个某个需求,然后找到其他人的代码,又想看懂吧。里面肯定各种大中小括号,让人头大2333333

    不过先别急,先给出两个简单的概念,普通字符(例如,a 到 z 之间的字母)和特殊字符(称为"元字符")。

    所谓的特殊字符(元字符),其实就是一些字符给了一些特殊的意义,有点类似于保留字、系统自带函数之类的东西,而且不允许你重载它。如果你想在正则表达式中匹配特殊字符本身,只需要在它之前加一个就行了,比如*就是匹配的*,但是单独的*就会发挥它的特定功能。具体有哪些特殊字符,可以参考这个菜鸟教程网页 。刚开始学没必要把它们都弄懂,只要把  + * 大中小括号先弄懂,就能写一些基本的正则表达式了。其他的后续碰到再查表就是了。

    • 我觉得有必要先弄懂大中小括号。
    • 先讲中括号[],中括号是一个字符簇。中括号要注意的就是,一个中括号虽然可以表达一个很大的范围(字符簇),但是它只能在字符串中匹配单一的一个字符。

        看下面的例子。

    r'[AaEeIiOoUu]'
    #这个模式与任何单个的元音字符匹配,但只能匹配一个字符。
    
    #用连字号-可以表示一个字符的范围,如下
    r'[a-z]' #匹配所有的单个小写字母 
    r'[A-Z]' #匹配所有的单个大写字母 
    r'[a-zA-Z]' #匹配所有的单个字母 
    r'[0-9]' #匹配所有的单个数字 
    r'[0-9.-]' #匹配所有的单个数字或句号或减号 
    #需要匹配连续的某字符簇的话,配合+或者*使用。如下
    
    r'[0-9]+'  #匹配0个或者连续多个0-9范围内的数字, 如‘1234’  或者 ‘’
    r'[0-9]*'  #匹配至少1个或连续多个0-9范围内的数字, 如‘1234’
    []

             看完这个中括号的例子,大概也能猜到+ 和*的作用了。

    • 然后是小括号(),小括号是用来标记一个子表达式的开始和结束位置。
    In [50]: myre = re.compile(r'([0-9][a-c])+')
    
    In [51]: mystr = '1c2a3b'
    
    In [52]: myres = myre.search(mystr)
    
    In [53]: print(myres)
    <_sre.SRE_Match object; span=(0, 6), match='1c2a3b'>
    
    In [54]: myre2 = re.compile(r'[0-9][a-c]+')
    
    In [55]: mystr2 = '1abbc'
    
    In [56]: myres2 = myre2.search(mystr2)
    
    In [57]: myres2
    Out[57]: <_sre.SRE_Match object; span=(0, 5), match='1abbc'>
    
    In [58]: myres3 = myre2.search(mystr)
    
    In [59]: myres3
    Out[59]: <_sre.SRE_Match object; span=(0, 2), match='1c'>
    ()

    这个例子解释了加()对+元字符的作用范围的功能。不加()的时候,只能匹配数字开头,至少1个abc的字符串。但是加了()之后,变成了匹配数字和abc交替出现的字符串。

    • 然后是大括号{}, 大括号是用来标记前一个子表达式匹配的次数,其实作用和+ * 有些类似,只不过有特定的次数。看下面的例子:
    '''
    一个数字 {x} 的意思是前面的字符或字符簇只出现x次 ;一个数字加逗号 {x,} 的意思是前面的内容出现x或更多的次数 ;两个数字用逗号分隔的数字 {x,y} 表示 前面的内容至少出现x次,但不超过y次。我们可以把模式扩展到更多的单词或数字:
    '''
    r'a{4}'        #匹配连续4个a
    r'a{2,}'      #匹配连续两个a的字符串
    r'a{2,4}'     #匹配连续a,至少两个,最多4个。
    {}

    其实特殊字符 * 与 {0,} 是相等的,它们都代表着 0 个或多个前面的子表达式 。特殊字符 + 与 {1,} 是相等的,表示 1 个或多个前面的子表达式。 

    我的入门初探小结大概就是这样了。能看懂上面这些的话,基本的正则表达式都能看懂了。

    看教程的过程中还看到一个  “贪婪”“非贪婪”的概念。

    这个东西其实也很好理解。下面给一个例子吧。

    _curly_re = re.compile(r'(.*?){(.+?)}(.*)')
    
    
    # 这个表达式,用小括号()分成了3部分,然后中间还有夹杂着{ }用来匹配左右大括号字符,而不是表示特殊符号大括号。
    
    #第一个小括号中的子表达式:
    #.表示通配符,匹配除换行符 
     之外的任何单个字符。
    #.后面加了一个*,表示匹配前面的子表达式零次或多次
    #.*结合起来就是匹配任意的符号0次或多次。
    #但是后面又加了一个?     这个?就是标志 非贪婪的匹配。
    # 什么叫非贪婪呢?
    
    #举例如下
    r'.*{'      #可以匹配'asdf{asdf{'
    r'.*?{'      #只能匹配到'asdf{xxx{'中的  'asdf{'子串
    
    #很好理解了吗? 非贪婪就是  .*对于这种可以无限往下匹配的表达式,会考虑后续表达式的匹配,而不是贪婪的无穷的匹配下去。
    贪婪、非贪婪
  • 相关阅读:
    lamp
    ssh 交互脚本
    mysql 备份检测主从脚本
    RANDOM 猜数字脚本
    ansible+playbook 搭建lnmp环境
    集群搭建
    grafana
    nginx lnmp搭建
    shell 基础(1): 变量
    seq 增量输出命令
  • 原文地址:https://www.cnblogs.com/chengebigdata/p/9218148.html
Copyright © 2011-2022 走看看