zoukankan      html  css  js  c++  java
  • 正则表达式和扩展正则表达式

    REGEXP:由一类特殊字符所编写的模式,其中有些字符不表示字符字面意义,而表示控制或通配的功能

    分两类:
        基本正则表达式:BRE
        扩展正则表达式:ERE
    基本正则表达式元字符
        字符匹配
        . :匹配任意单个字符
        [] :匹配指定范围内的任意单个字符
        [^]:匹配指定范围外的任意单个字符
     
      匹配次数
        *      :匹配前面字符任意次
          .*    :匹配任意长度任意字符
        ?     :匹配前面的字符0次或1次
        +      :匹配前面的字符至少一次
        {m}    :匹配前面的字符m次
        {m,}   :匹配前面的字符至少m次
        {0,n}   :匹配前面的字符至多n次
        {m,n}   :匹配前面的字符至少m次,至多n次
      
      位置锚定
        ^      :锚定行首
        $      :锚定行尾
        <或   :锚定词首
        >或 :锚定词尾
        <PATTERN>:匹配整个单词

      分组
        ()  :将一个或多个字符捆绑在一起,当做一个整体进行处理
          NOTE:分组括号中的模式匹配到的内容会被正则表达式引擎记录于内部的变量中,这些变量的命名方式:1,2,3
            1:从左侧起,第一个左括号以及与之匹配的右括号之间的模式所匹配的字符
      后向引用:引用前面的分组括号中的模式所匹配的字符,而非模式本身
    扩展正则表达式元字符
        字符匹配
        .:匹配任意单个字符
        []:匹配指定范围内的任意单个字符
        [^]:匹配指定范围外的任意单个字符
    匹配次数
        *:匹配前面的字符任意次
        ?:匹配前面的字符0次或1次
        +:匹配前面的字符至少一次
        {m}:匹配前面的字符m次
        {m,}:匹配前面的字符至少m次
        {0,n}:匹配前面的字符至多n次
        {m,n}:匹配前面的字符至少m次,至多n次
    位置锚定
        ^:行首锚定
        $:行尾锚定
        <:词首锚定
        >:词尾锚定
        <PATTERN>:匹配整个单词
    分组:()
      后向引用:1,2,3...
      或者:
        a|b
          C|cat:C或者cat
  • 相关阅读:
    python多线程爬虫:亚马逊价格
    python在linux中输出带颜色的文字的方法
    单线程爬虫VS多线程爬虫的效率对比
    python爬虫:正则表达式
    爬虫-python调用百度API/requests
    Python gevent学习笔记-2
    Python gevent学习笔记
    IO多路复用之select总结
    select、poll、epoll之间的区别总结[整理]
    2020年 IEDA破解码失效,2019 版IDEA无法使用 ,已解决,有效期2100年;原标题:IDEA激活—免费永久激活(lookdiv.com)
  • 原文地址:https://www.cnblogs.com/ckh2014/p/14100791.html
Copyright © 2011-2022 走看看