zoukankan      html  css  js  c++  java
  • 日期正则表达式

    1.示例代码如下:(虽然/d和[0-9]是等效的,但是BASIC REG和EXTEND_REG(正则表达式的类型)不支持/d, python支持)
    http://blog.csdn.net/yufenghyc/article/details/51078107
     
    int datematch(char *buf)
    {
      //const char *regex = "^([0-9]{4})-([0-9]{2})-([0-9]{2})$"; //简单判断读取数字格式
      const char *regex ="(([0-9]{3}[1-9]|[0-9]{2}[1-9][0-9]{1}|[0-9]{1}[1-9][0-9]{2}|[1-9][0-9]{3})-(((0[13578]|1[02])-(0[1-9]|[12][0-9]|3[01]))|((0[469]|11)-(0[1-9]|[12][0-9]|30))|(02-(0[1-9]|[1][0-9]|2[0-8]))))|((([0-9]{2})(0[48]|[2468][048]|[13579][26])|((0[48]|[2468][048]|[3579][26])00))-02-29)"; //对合法日期的判断
      regex_t preg;
      const size_t nmatch = 2;//定义匹配结果最大允许数2
      regmatch_t pm[nmatch];
    	
      if(regcomp(&preg, regex, REG_EXTENDED) != 0) { //编译正则表达式失败
    	perror("regcomp");
    	regfree(&preg); //释放正则表达式
    	exit(1);
      }
    
      if(regexec(&preg, buf, nmatch, pm, 0) == REG_NOMATCH) //无法匹配到
      {
      	regfree(&preg); //释放正则表达式
      	return -1;
      }
      cout<<regex<<"---"<<buf<<endl;   regfree(&preg); //释放正则表达式   return 0; } 函数简介: 1.int regcomp (regex_t *compiled, const char *pattern, int cflags)
      regex_t 是一个结构体数据类型,用来存放编译后的正则表达式   regex_t 的成员re_nsub 用来存储正则表达式中的子正则表达式的个数,子正则表达式就是用圆括号包起来的部分表达式
      pattern 是指向我们写好的正则表达式的指针   cflags 有如下4个值或者是它们或运算(|)后的值:   REG_EXTENDED 以功能更加强大的扩展正则表达式的方式进行匹配。   REG_ICASE 匹配字母时忽略大小写。   REG_NOSUB 不用存储匹配后的结果。   REG_NEWLINE 识别换行符,这样'$'就可以从行尾开始匹配,'^'就可以从行的开头开始匹配 2.int regexec (regex_t *compiled, char *string, size_t nmatch, regmatch_t matchptr [], int eflags)   如果在编译正则表达式的时候没有指定cflags的参数为REG_NEWLINE,则默认情况下是忽略换行符的,也就是把整个文本串当作一个字符串处理。执行成功返回0   regmatch_t 是一个结构体数据类型,在regex.h中定义:
      typedef struct   {     regoff_t rm_so;
        regoff_t rm_eo;   } regmatch_t;
      成员rm_so 存放匹配文本串在目标串中的开始位置,rm_eo存放结束位置 通常我们以数组的形式定义一组这样的结构。因为往往我们的正则表达式中还包含子正则表达式。数组0单元存放主正则表达式位置,后边的单元依次存放子正则表达式位置 compiled 是已经用regcomp函数编译好的正则表达式 string 是目标文本串 nmatch 是regmatch_t结构体数组的长度(用来存储匹配得到的字符串,可以设置为1) atchptr regmatch_t类型的结构体数组,存放匹配文本串的位置信息 eflags 有两个值 REG_NOTBOL 是否是第一行 REG_NOTEOL 是否是最后一行 3.void regfree (regex_t *compiled) 清空compiled指向的regex_t结构体的内容,如果是重新编译的话,一定要先清空regex_t结构体c 4.size_t regerror (int errcode, regex_t *compiled, char *buffer, size_t length) 当执行regcomp 或者regexec 产生错误的时候,就可以调用这个函数而返回一个包含错误信息的字符串 errcode 是由regcomp 和 regexec 函数返回的错误代号 compiled 是已经用regcomp函数编译好的正则表达式,这个值可以为NULL buffer 指向用来存放错误信息的字符串的内存空间 length 指明buffer的长度,如果这个错误信息的长度大于这个值,则regerror 函数会自动截断超出的字符串,但他仍然会返回完整的字符串的长度。所以我们可以用如下的方法先得到错误字符串的长度。 size_t length = regerror (errcode, compiled, NULL, 0);

    参考:正则表达式BREs,EREs,PREs的比较

    首先正则表达式分为三类(man grep可以看到,分别是basic RegExs,extended RegExs,perl RegExs)

    正则表达式:在计算机科学中,是指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串。在很多文本编辑器或其他工具里,正则表达式通常被用来检索或替换那些符合某个模式的文本内容。正则表达式这个概念最初是由Unix中的工具软件(例如sed和grep)普及开的。

    一、正则表达式分类:

    1、基本的正则表达式(Basic Regular Expression 又叫 Basic RegEx  简称 BREs)

    2、扩展的正则表达式(Extended Regular Expression 又叫 Extended RegEx 简称 EREs)

    3、Perl 的正则表达式(Perl Regular Expression 又叫 Perl RegEx 简称 PREs)

     说明:只有掌握了正则表达式,才能全面地掌握 Linux 下的常用文本工具(例如:grep、egrep、GUN sed、 Awk 等) 的用法

    二、Linux 中常用文本工具与正则表达式的关系 

    常握 Linux 下几种常用文本工具的特点,对于我们更好的使用正则表达式是很有帮助的

    • grep , egrep 正则表达式特点:

    1)grep 支持:BREs、EREs、PREs 正则表达式

    grep 指令后不跟任何参数,则表示要使用 ”BREs“ 

    grep 指令后跟 ”-E" 参数,则表示要使用 “EREs“

    grep 指令后跟 “-P" 参数,则表示要使用 “PREs"

     

    2)egrep 支持:EREs、PREs 正则表达式

    egrep 指令后不跟任何参数,则表示要使用 “EREs”

    egrep 指令后跟 “-P" 参数,则表示要使用 “PREs"

     

    3)grep 与 egrep 正则匹配文件,处理文件方法

    a. grep 与 egrep 的处理对象:文本文件

    b. grep 与 egrep 的处理过程:查找文本文件中是否含要查找的 “关键字”(关键字可以是正则表达式) ,如果含有要查找的 ”关健字“,那么默认返回该文本文件中包含该”关健字“的该行的内容,并在标准输出中显示出来,除非使用了“>" 重定向符号,

    c. grep 与 egrep 在处理文本文件时,是按行处理的

     

    • sed 正则表达式特点

    1)sed 文本工具支持:BREs、EREs

    sed 指令默认是使用"BREs"

    sed 命令参数 “-r ” ,则表示要使用“EREs"

    2)sed 功能与作用

    a. sed 处理的对象:文本文件

    b. sed 处理操作:对文本文件的内容进行 --- 查找、替换、删除、增加等操作

    c. sed 在处理文本文件的时候,也是按行处理的

    • Awk(gawk)正则表达式特点

    1)Awk 文本工具支持:EREs

    awk 指令默认是使用 “EREs"

    2)Awk 文本工具处理文本的特点

    a. awk 处理的对象:文本文件

    b. awk 处理操作:主要是对列进行操作

     

    三、常见3中类型正则表达式比较

    ,如:dog
    字符 说明 Basic RegEx Extended RegEx python RegEx Perl regEx
    转义  
    ^ 匹配行首,例如'^dog'匹配以字符串dog开头的行(注意:awk 指令中,'^'则是匹配字符串的开始) ^ ^ ^ ^
    $ 匹配行尾,例如:'^、dog$'匹配以字符串 dog 为结尾的行(注意:awk 指令中,'$'则是匹配字符串的结尾) $ $ $ $

    ^$

    匹配空行

    ^$ ^$ ^$ ^$
    ^string$ 匹配行,例如:'^dog$'匹配只含一个字符串 dog 的行 ^string$ ^string$ ^string$ ^string$
    < 匹配单词,例如:'<frog' (等价于'frog'),匹配以 frog 开头的单词 < < 不支持 不支持(但可以使用来匹配单词,例如:'frog')

    >

    匹配单词,例如:'frog>'(等价于'frog '),匹配以 frog 结尾的单词 > > 不支持 不支持(但可以使用来匹配单词,例如:'frog')

    <x>

    匹配一个单词或者一个特定字符,例如:'<frog>'(等价于'frog')、'<G>' <x> <x> 不支持 不支持(但可以使用来匹配单词,例如:'frog'

    ()

    匹配表达式,例如:不支持'(frog)' 不支持(但可以使用
      () () ()
     
      匹配表达式,例如:不支持'(frog)'  
      不支持(同()) 不支持(同()) 不支持(同())

    匹配前面的子表达式 0 次或 1 次(等价于{0,1}),例如:where(is)?能匹配"where" 以及"whereis" 不支持(同?)
    ? 匹配前面的子表达式 0 次或 1 次(等价于'{0,1}'),例如:'whereis
    ? '能匹配 "where"以及"whereis" ? 不支持(同?) 不支持(同?) 不支持(同?)
    ? 当该字符紧跟在任何一个其他限制符(*, +, ?, {n},{n,}, {n,m}) 后面时,匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串,而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如,对于字符串 "oooo",'o+?' 将匹配单个"o",而 'o+' 将匹配所有 'o' 不支持 不支持 不支持 不支持
    . 匹配除换行符(' ')之外的任意单个字符(注意:awk 指令中的句点能匹配换行符) . .(如果要匹配包括“ ”在内的任何一个字符,请使用:'(^$)|(.) . .(如果要匹配包括“ ”在内的任何一个字符,请使用:' [. ] '
    * 匹配前面的子表达式 0 次或多次(等价于{0, }),例如:zo* 能匹配 "z"以及 "zoo" * * * *
    + 匹配前面的子表达式 1 次或多次(等价于'{1, }'),例如:'whereis
    + '能匹配 "whereis"以及"whereisis" + 不支持(同+) 不支持(同+) 不支持(同+)
    + 匹配前面的子表达式 1 次或多次(等价于{1, }),例如:zo+能匹配 "zo"以及 "zoo",但不能匹配 "z" 不支持(同+) + + +

    {n}

    n 必须是一个 0 或者正整数,匹配子表达式 n 次,例如:zo{2}能匹配 不支持(同{n}) {n} {n} {n}
    {n,} "zooz",但不能匹配 "Bob"n 必须是一个 0 或者正整数,匹配子表达式大于等于 n次,例如:go{2,} 不支持(同{n,}) {n,} {n,} {n,}
    {n,m} 能匹配 "good",但不能匹配 godm 和 n 均为非负整数,其中 n <= m,最少匹配 n 次且最多匹配 m 次 ,例如:o{1,3}将配"fooooood" 中的前三个 o(请注意在逗号和两个数之间不能有空格) 不支持(同{n,m}) {n,m} {n,m} {n,m}

    x|y

    匹配 x 或 y,例如: 不支持'z|(food)' 能匹配 "z" 或"food";'(z|f)ood' 则匹配"zood" 或 "food" 不支持(同x|y) x|y x|y x|y

    [0-9]

    匹配从 0 到 9 中的任意一个数字字符(注意:要写成递增) [0-9] [0-9] [0-9] [0-9]

    [xyz]

    字符集合,匹配所包含的任意一个字符,例如:'[abc]'可以匹配"lay" 中的 'a'(注意:如果元字符,例如:. *等,它们被放在[ ]中,那么它们将变成一个普通字符) [xyz] [xyz] [xyz] [xyz]

    [^xyz]

    负值字符集合,匹配未包含的任意一个字符(注意:不包括换行符),例如:'[^abc]' 可以匹配 "Lay" 中的'L'(注意:[^xyz]在awk 指令中则是匹配未包含的任意一个字符+换行符) [^xyz] [^xyz] [^xyz] [^xyz]
    [A-Za-z] 匹配大写字母或者小写字母中的任意一个字符(注意:要写成递增) [A-Za-z] [A-Za-z] [A-Za-z] [A-Za-z]
    [^A-Za-z] 匹配除了大写与小写字母之外的任意一个字符(注意:写成递增) [^A-Za-z] [^A-Za-z] [^A-Za-z] [^A-Za-z]

    d

    匹配从 0 到 9 中的任意一个数字字符(等价于 [0-9]) 不支持 不支持 d d

    D

    匹配非数字字符(等价于 [^0-9]) 不支持 不支持 D D
    S 匹配任何非空白字符(等价于[^f v]) 不支持 不支持 S S
    s 匹配任何空白字符,包括空格、制表符、换页符等等(等价于[ f v]) 不支持 不支持 s s
    W

    匹配任何非单词字符 (等价于[^A-Za-z0-9_])

    W W W W
    w 匹配包括下划线的任何单词字符(等价于[A-Za-z0-9_]) w w w w
    B 匹配非单词边界,例如:'erB' 能匹配 "verb" 中的'er',但不能匹配"never" 中的'er' B B B B

    

    匹配一个单词边界,也就是指单词和空格间的位置,例如: 'er' 可以匹配"never" 中的 'er',但不能匹配 "verb" 中的'er'    
    匹配一个横向制表符(等价于 x09和 cI) 不支持 不支持
    v 匹配一个垂直制表符(等价于 x0b和 cK) 不支持 不支持 v v
    匹配一个换行符(等价于 x0a 和cJ) 不支持 不支持
    f 匹配一个换页符(等价于x0c 和cL) 不支持 不支持 f f
    匹配一个回车符(等价于 x0d 和cM) 不支持 不支持
    \ 匹配转义字符本身"" \ \ \ \

    cx

    匹配由 x 指明的控制字符,例如:cM匹配一个Control-M 或回车符,x 的值必须为A-Z 或 a-z 之一,否则,将 c 视为一个原义的 'c' 字符 不支持 不支持   cx

    xn

    匹配 n,其中 n 为十六进制转义值。十六进制转义值必须为确定的两个数字长,例如:'x41' 匹配 "A"。'x041' 则等价于'x04' & "1"。正则表达式中可以使用 ASCII 编码 不支持 不支持   xn

    um

    匹配 num,其中 num是一个正整数。表示对所获取的匹配的引用 不支持 um um  
    [:alnum:] 匹配任何一个字母或数字([A-Za-z0-9]),例如:'[[:alnum:]] ' [:alnum:] [:alnum:] [:alnum:] [:alnum:]
    [:alpha:] 匹配任何一个字母([A-Za-z]), 例如:' [[:alpha:]] ' [:alpha:] [:alpha:] [:alpha:] [:alpha:]
    [:digit:] 匹配任何一个数字([0-9]),例如:'[[:digit:]] ' [:digit:] [:digit:] [:digit:] [:digit:]
    [:lower:] 匹配任何一个小写字母([a-z]), 例如:' [[:lower:]] ' [:lower:] [:lower:] [:lower:] [:lower:]
    [:upper:] 匹配任何一个大写字母([A-Z]) [:upper:] [:upper:] [:upper:] [:upper:]
    [:space:] 任何一个空白字符: 支持制表符、空格,例如:' [[:space:]] ' [:space:] [:space:] [:space:] [:space:]
    [:blank:] 空格和制表符(横向和纵向),例如:'[[:blank:]]'ó'[s v]' [:blank:] [:blank:] [:blank:] [:blank:]
    [:graph:] 任何一个可以看得见的且可以打印的字符(注意:不包括空格和换行符等),例如:'[[:graph:]] ' [:graph:] [:graph:] [:graph:] [:graph:]
    [:print:] 任何一个可以打印的字符(注意:不包括:[:cntrl:]、字符串结束符''、EOF 文件结束符(-1), 但包括空格符号),例如:'[[:print:]] ' [:print:] [:print:] [:print:] [:print:]

    [:cntrl:]

    任何一个控制字符(ASCII 字符集中的前 32 个字符,即:用十进制表示为从 0 到31,例如:换行符、制表符等等),例如:' [[:cntrl:]]'

    [:cntrl:]

    [:cntrl:]

    [:cntrl:]

    [:cntrl:]

    [:punct:] 任何一个标点符号(不包括:[:alnum:]、[:cntrl:]、[:space:]这些字符集) [:punct:] [:punct:] [:punct:] [:punct:]
    [:xdigit:] 任何一个十六进制数(即:0-9,a-f,A-F) [:xdigit:] [:xdigit:] [:xdigit:] [:xdigit:]

     
  • 相关阅读:
    如何有效的写算法题的几个小tips
    题目
    记录加入博客园,申请开通cnblog
    关于套接字socket程序参数设置
    int main (int argc, const char * argv[0])及指针数组与数组指针
    sleep函数
    signal函数
    C htonl()函数
    位域unsigned char a:4
    关于TCP和UDP的一个理解
  • 原文地址:https://www.cnblogs.com/linux-wang/p/8142825.html
Copyright © 2011-2022 走看看