zoukankan      html  css  js  c++  java
  • 正则表达式(1.语法)

    1.正则表达式:

      - 一种灵活而强大的文本处理工具

      - 大部分编程语言,数据库,文本编辑器,开发环境都支持正则表达式。

      - 正则表达式描述了一种规则,通过这个规则可以匹配一类字符串

    2.测试正则的工具:RegexBuddy

    3.正则表达式的语法:

      1.普通字符:字母,数字,下划线,以及没有特殊定义的标点符号,都是普通字符。表达式中的普通字符,在匹配字符串的时候,

            匹配与之相同的一个字符。

      2.转义字符:   代表换行符

               制表符

            \  代表本身

            ^  代表^(例子)

      3.标准字符集合

        - 能够和多种字符匹配的表达式

        - 注意区分大小写,大写是相反的意思

        d:任意一个数字,0~9中的任意一个

        w:任意一个字母或者数字或者下划线,也就是A~Z,a~z,0~9,_,中任意一个

        s:包括空格,制表符,换行符等空白字符的其中任意一个

        .:可以匹配任意一个字符,如果要匹配包括 在内的所有字符,一般使用[sS]

      4.自定义字符集合

        - []方括号匹配方式,能够匹配方括号中任意一个字符

          [ab5@]:匹配a或b或5或者@

          [^abc]:匹配a,b,c之外的任意一个字符

          [f-k]:匹配f~k之间的任意一个字母

          [^A-F0-3]:匹配A~F,0~3之外的任意一个字符

        - 正则表达式的特殊符号,被包含到中括号里面,则失去特殊含义,除了^和-

        - 标准字符集合,除了小数点(.),如果被包含于中括号中,自定义字符集合将包含该集合

          例如:[d.-+] 则代表数字,小数点,+号和-号

      5.量词

        {n}:表达式重复n次

        {m,n}:表达式最少重复m次,最多重复n次

        {m,}:表达式至少重复m次

        ?:匹配表达式0次或者1次,相当于{0,1}

        +:表达式至少出现1次,相当于{1,}

        *:表达式不出现,或者出现任意次,相当于{0,}

          - 贪婪模式:匹配字符越多越好,这是默认的。例如d{3,5},会优先匹配5个字符。

          - 非贪婪模式:匹配字符越少越好,修饰匹配次数的特殊符号后在加上一个?,例如d{3,5}?,则会优先匹配3个字符。

      6.字符边界

        - 字符边界标记匹配的是一个位置而不是一个字符,这里的位置是指符合某种条件的位置

          ^:与字符串开始的地方匹配   例:i love u 想要匹配i 可以写^i(表示i的左边是一个字符串开始的地方)

          $:与字符串结束的地方匹配 例:i love u uu u 想要匹配最后一个u 可以写u$(表示u的右边是一个字符串结束的地方)

          :匹配一个单词边界 :意思就是前面的字符和后面的字符不全是w 例:正则(yangf) 可以匹配 yangf 123yangf yangf.23 即在yangf后面不是w的都可以。

                     注意,不全是的含义就是  全是和全不是都不匹配。

      7.正则表达式的匹配模式

        - IGNORECASE 忽略大小写模式

          - 匹配时忽略大小写

          - 默认情况下,正则是区分大小写的

        - SINGLELINE 单行模式

          - 整个文本看做一个字符串,只有一个开头一个结尾

          - 使小数点可以匹配包含换行符( )在内的任意字符

        - MULTILINE 多行模式

          - 每行都是一个字符串,都有开头和结尾

          - 在指定了MULTILINE之后,如果需要仅匹配字符串的开始和结束位置,可以使用A和

      8.选择符和分组

        - |(分支结构):左右两边表达式之间 “或”关系,匹配左边或者右边

        - ()捕获组:  1.在被修饰匹配次数的时候,括号中的表达式可以作为整体被修饰

                 2.取匹配结果的时候,括号中的表达式匹配到的内容可以被单独得到

                 3.每一对括号会分配一个编号,使用()的捕获根据左括号的顺序从1开始自动编号。捕获元素编号为0的第一个捕获是

                  由整个正则表达式模式匹配的文本。

        - (?:Expression)非捕获组: 一些表达式中,不得不使用(),但又不需要保存()中子表达式匹配的内容,这时可以用非捕获组来抵消使用()

                    带来的副作用。 例如:(?:[a-z]{2}),这样不会把捕获到的内容放到内存中。

        - 反向引用:( nn)  nn代表第nnn个括号代表的内容,以左括号为准。 例:(1(2) (3))

          - 每一对()会分配一个编号,使用()的捕获根据左括号的顺序从1开始自动编号

          - 通过反向引用,可以对分组已捕获的字符串进行引用 例:从gogo goto toto dodo todo 中获取gogo toto dodo 的正则 ([a-z]{2})1,([a-z]{2})捕获到go to do,

                反向引用1,再重复一次。

      9.预搜索(零宽断言)

        - 只进行子表达式的匹配,匹配内容不计入最终的匹配结果,是零宽度。

        - 这个位置应该符合某个条件。判断当前位置的前后字符,是否符合指定条件。

        - 正则表达式匹配过程中,如果子表达式匹配到的是字符内容而不是字符位置,并且被保存到最终的匹配结果中,那么就认为这个子表达式是占有字符的。如果子表达式匹配的仅仅

         是位置,或者匹配内容不保存到最终的匹配结果中,那么就认为这个子表达式是零宽度的。占有字符还是零宽度,是针对匹配的内容是否保存到最终的匹配结果中而言的。

          1.(?=exp):断言自身出现的位置的后面能匹配表达式exp  例:从going doing eating中匹配go do eat的正则[a-z]+(?=ing)

          2.(?<=exp):断言自身出现的位置的前面能匹配表达式exp

          3.(?!exp):断言此位置的后面不能匹配表达式exp

          4.(?<!exp):断言此位置的前面不能匹配表达式exp

  • 相关阅读:
    机器学习读书笔记(六)
    机器学习读书笔记(五)AdaBoost
    机器学习读书笔记(三)决策树基础篇之从相亲说起
    机器学习读书笔记(四)朴素贝叶斯基础篇之网站账号分类
    机器学习读书笔记(二)使用k-近邻算法改进约会网站的配对效果
    机器学习读书笔记(一)k-近邻算法
    大数据集群常见问题总结
    Hadoop、Hbase基本命令及调优方式
    Java多线程优化方法及使用方式
    Linux-RED HAT6.8扩容
  • 原文地址:https://www.cnblogs.com/yangfanasp/p/6832785.html
Copyright © 2011-2022 走看看