zoukankan      html  css  js  c++  java
  • 正则表达式的3种匹配模式

    正则表达式是处理字符串的常用工具。在c#中,我们一般使用regex类来表示一个正则表达式。一般正则表达式引擎支持以下3种匹配模式:单行模式(singleline)、多行模式(multiline)与忽略大小写(ignorecase)。

    1. 单行模式(singleline)
    msdn定义:更改点 (.) 的含义,使它与每一个字符匹配(而不是与除 \n 之外的每个字符匹配)。
    使用单行模式的典型场景是获取网页源码中的信息。
    示例:
    我们使用webbrowser控件,从http://www.xxx.com/1.htm上获取了如下html源码,它存储在变量str中:
    <html>
    <body>
    <div>
    line 1
    line 2
    </div>
    </body>
    </html>
    我们想把div标签以及其中的内容提取出来,编写代码如下:

    string pattern = @"<div>.*</div>";
    regex regex = new regex(pattern);
    if (regex.ismatch(str))
      console.writeline(regex.match(str).value);
    else
      console.writeline("mismatch!");

    //结果为:mismatch!
    错误分析:
    一般认为点符号(.)是匹配任意单个字符的,而(.*)就是匹配任意多个字符。但实际上点符号不能匹配换行符。在windows中与它等效的表达式为[^\r\n]。
    而我们从网站上获取的html源码,极少有不换行的。这时候单行模式派上用场了,它可以改变点符号的意义。修改regex实例的构造函数,用regexoptions.singleline来声明使用单行模式:

    string pattern = @"<div>.*</div>";
    regex regex = new regex(pattern, regexoptions.singleline);
    if (regex.ismatch(str))
      console.writeline(regex.match(str).value);
    else
      console.writeline("mismatch!");

    /*
    结果为:
    <div>
    line 1
    line 2
    </div>
    */

    单行模式的嵌入修饰符:
    我们可以直接在正则表达式中嵌入单行模式:
    (?s)<div>.*</div>
    (?s)修饰符说明,其后面的表达式采用单行模式。所以使用时请不要将它放在末尾。另外可以使用(?-s)关闭单行模式。
    注意:嵌入模式的优先级要高于regex类的regexoptions设置,所以使用了(?s)后,无论是否使用regexoptions.singleline,均按照单行模式解析。

    2. 多行模式(multiline)
    msdn定义:更改 ^ 和 $ 的含义,使它们分别在任意一行的行首和行尾匹配,而不仅仅在整个字符串的开头和结尾匹配。
    示例:
    有一个文本文件,它的每一行是一个用户名,将文件读入变量str中进行处理。其内容如下:
    二十四画生
    terrylee
    莫相会
    dflying chen
    rainy
    借用博客园各位前辈的大名:)
    我们想找出一个使用英文字母开头的用户名,编写代码如下:

    string pattern = @"^[a-za-z]+.*";
    regex regex = new regex(pattern);
    if (regex.ismatch(str))
      console.writeline(regex.match(str).value);
    else
      console.writeline("mismatch!");

    //结果为:mismatch!
    错误分析:
    (^)是字符串的起始锚定,str的第一个字符是一个中文字,所以匹配不上。我们就可以使用多行模式来改变(^)的含义,使它匹配每一行的起始,而不是整个字符串的起始。
    更改代码如下:

    string pattern = @"^[a-za-z]+.*";
    regex regex = new regex(pattern, regexoptions.multiline);
    if (regex.ismatch(str))
      console.writeline(regex.match(str).value);
    else
      console.writeline("mismatch!");

    //结果为:terrylee
    同时,多行模式也会改变($)的含义,使它匹配每一行的结尾,而不是整个字符串的结尾。
    与(^)和($)不同的是,(\a)和(\z)并不受多行模式的影响,永远匹配整个字符串的起始和结尾。
    多行模式的嵌入修饰符:(?m)与(?-m)

    3. 忽略大小写(ignorecase)
    msdn定义:指定不区分大小写的匹配。
    这个模式很容易理解,它认为大小写字符是相同的。我们仍以上例来说明。
    示例:

    string pattern = @"^[a-z]+.*";
    regex regex = new regex(pattern, regexoptions.multiline | regexoptions.ignorecase);
    if (regex.ismatch(str))
      console.writeline(regex.match(str).value);
    else
      console.writeline("mismatch!");

    //结果为:terrylee
    分析:请注意这次使用的正则表达式,我们并没有写入大写字母,但却匹配了以大写字母开头的名字,这就是忽略大小写的效果。
    忽略大小写的嵌入修饰符:(?i)与(?-i)

    总结:
    最后我们用一个表格来总结一下这三个模式
       定义    影响的表达式    regexoptions枚举    嵌入标识符
    单行模式    更改点 (.) 的含义,使它与每一个字符匹配(而不是与除 \n 之外的每个字符匹配)。    .    singleline    (?s)
    多行模式    更改 ^ 和 $ 的含义,使它们分别在任意一行的行首和行尾匹配,而不仅仅在整个字符串的开头和结尾匹配。    ^$    multiline    (?m)
    忽略大小写    指定不区分大小写的匹配。        ignorecase    (?i)

  • 相关阅读:
    【ABAP系列】SAP ABAP OOALV 动态设置单元格可否编辑
    【HANA系列】SAP HANA使用XS和HTTP创建proxy
    【HANA系列】SAP HANA SLT在表中隐藏字段并传入HANA的方法
    【BW系列】SAP 讲讲BW/4 HANA和BW on HANA的区别
    【HANA系列】SAP HANA 2.0 SPS00 SDA(Smart Data Access)连接Hadoop
    【BW系列】SAP BW on HANA 迁移问题
    【HANA系列】SAP HANA行列转换
    【HANA系列】SAP ECLIPSE中创建ABAP项目失败原因解析
    开放-封闭原则
    单一职责原则
  • 原文地址:https://www.cnblogs.com/smailxiaobai/p/2341503.html
Copyright © 2011-2022 走看看