zoukankan      html  css  js  c++  java
  • 【.NET】正则表达式笔记

    很早就听说正则表达式的强大,今天终于一睹它的真容,在这里记下学习时候的笔记,以便以后查看

    1、正则表达式

      用于描述字符串规则的的特殊的字符(正则表达式本身是字符串,用来描述字符串的相关规则,用于与其他字符串进行匹配)

      例如:

        正则表达式:Http  表示单词 Http,两边的表示单词的开始于结束

          可以与"Here is a Http tag"匹配,但是不能与'", "HttpRequest", "XMLHttpRequest"等字符串匹配,

    2、元字符(meta character)

      用于描述最基本的信息,常见的有以下元字符

          单词的开始于结束

        w  字母(大小写),数字,下划线

        s  任意空字符(空格,制表符,回车)

        d  匹配数字0-9

        .   小数点,匹配非换行字符

        ^  字符串的开始(注意:是表示单词

        $  字符串的结束

        其中:B,W,S,D的含义与小写的相反

          例如:D表示非数字字符

    3、转义字符

      小数点:  .  

      星号:   *  

      下划线:  \  

      括号:   (  )

    3、限定字符      

      *    重复0次或多次
      +    重复1次或多次
      ?    重复0次或1次
      {n}   重复n次
      {n,}  重复n次以上
      {n,m}   重复n次到m次,包括n,m次

      当要匹配多个字符的时候,可以使用限定字符

          例如:^d{5}w*$  表示以5个数字开头的后面跟任意长度的字符(字母或数字或下划线)

    4、字符类

      匹配单个字符  [abc]      匹配所有a,b,c字符

              [^acd]      匹配所有的部位a,c,d的字符

              [,.?!;'"]       匹配半角标点

              [a-zA-Z0-9_]  相当于w

    5、分枝条件

      当有多个匹配条件的时候,可以使用  '|'  符号来连接几个条件,会优先匹配第一个

      例如:d{5}-d{4}|d{4}-d{5}  

       IP地址:  ((2[0-4]d|25[0-5]|[01]?dd?).){3}(2[0-4]d|25[0-5]|[01]?dd?)

    6、分组

      后向引用:用于搜索前面匹配的结果

      例如:在后面的匹配需要用到前面的匹配结果,

        (?<name>w+)s+k<name>    匹配两个连续相同的单词

      (exp)        匹配exp表达式,并将匹配文本放到自动命名组里

      (?<name>exp)   可对匹配的文本手动命名,并通过k<name>引用,也可以吧尖括号换成单引号(?'name'exp)

      (?:exp)       不获取文本,不分配组号

    7、断言

      1)正预测先行断言  (?=exp)  先匹配断言里面的表达式,匹配出之前的位置,再匹配外面的表达式,匹配结果不包含断言内容

        例如:d[0-9]*(?=9)  先判断单词是否以9结束,在判断是否为全数字,匹配结果不包含9

          78159  匹配结果为  7815  断言位置在9之前

      2)正回顾后发断言  (?<=exp)  匹配出之后的位置

        例如:(?<=re)w*  匹配以 re 开头的单词,不包括re

          I'm reading  匹配结果为  eading  断言位置在re之后

      3)负向零宽先行断言   (?!exp) 

        与正预测先行断言相似,只是匹配的条件为相反

        例如:  d{3}(?!d)      匹配三位数字,而且这三位数字的后面不能是数字

             ((?!abc)w)+    匹配不包含连续字符串abc的单词    

       4)负向零宽后发断言  (?<!exp) 

        与郑回顾后发断言相似,匹配条件相反

        例如:  (?<![a-z])d{7}    匹配前面不是小写字母的七位数字

    8、注释

      (?#comment)  例如  d{3}(?!d)(?#这里是注释)

    9、贪婪匹配与懒惰匹配

      在默认情况下,所有的匹配都会采取贪婪匹配,即匹配竟可能多的项

      例如:  a.*b  匹配  abaaababaa

        默认情况下回匹配出  abaaabab,  而不是 ab,aaab,ab

      在限定符后面加上?则可以竟可能少的匹配

          a.*?  匹配  abaaababaa  结果为 ab,aaab,ab

    10、在.NET中使用

            Regex regex = new Regex(@"^w+([-+.]w+)*@w+([-.]w+)*.w+([-.]w+)*$", RegexOptions.Multiline | RegexOptions.IgnorePatternWhitespace);
            bool b = regex.IsMatch("44917929@qq.com");

      在new Regex的时候,可以设置一些参数  http://msdn.microsoft.com/zh-cn/library/system.text.regularexpressions.regexoptions.aspx

        Compiled              指定将正则表达式编译为程序集。 这会产生更快的执行速度,但会增加启动时间。 
        ExplicitCapture           仅捕获显式命名的组
        IgnoreCase            指定不区分大小写的匹配。
        None               匹配任何字符除了 。^和$不起作用。
        Singleline             匹配任何字符。^和$匹配整个字符串
        Multiline             匹配任何字符除了 。^和$匹配每行的开头和结尾。
        IgnorePatternWhitespace    忽略表达式中的非转义空白,并启用#标记注释

    11、练习

        1、非负整数      ^d+$
        2、正整数       ^[1-9]*[1-9][0-9]*$
        3、非正整数      ^(-d+10)$
        4、负整数       ^-[1-9]*[1-9][0-9]*$
        5、整数        ^-?d+$
        5、非负浮点数     ^d+(.d+)?$
        6、正浮点数

        7、长度为8-10的用户名(以字母或下划线开头)          ^[A-Za-z_]w{7,9}$
        8、电子邮件                          ^w+([-+.]w+)*@w+([-.]w+)*.w+([-.]w+)*$

        9、一个没有属性的html标签的内容(例如<div>内容</div>)   (?<=<(w+)>).*(?=</1>)

    参考文章:

    http://www.cnblogs.com/deerchao/archive/2006/08/24/zhengzhe30fengzhongjiaocheng.html#lookaround

  • 相关阅读:
    JSON数据格式
    段寄存器
    进程 PCB 进程挂起
    python3:文件读写+with open as语句(转)
    Python 中 'unicodeescape' codec can't decode bytes in position XXX: trun错误解决方案
    intelx86为何从0xFFFF0处执行
    Linux内核调度分析(转,侵删)
    调度器简介,以及Linux的调度策略(转)
    nm命令
    Vim文本编辑器中常用的一些命令
  • 原文地址:https://www.cnblogs.com/bomo/p/3220425.html
Copyright © 2011-2022 走看看