zoukankan      html  css  js  c++  java
  • grep 正则2

    • 基本正则表达式所定义的元字符
    元字符作用例子例子说明
    ^ 行首定位符 ^ty 匹配"t"开头,后面紧跟一个"y"的字符串
    $ 行尾定位符 txt$ 匹配以"t"结尾,前面两个字符是"t""x"的字符串
    . 单个字符匹配 s. 匹配"s"后面有一个字符的字符串
    * 限定符 s* "*"表示匹配其前导字符若干次,包括0次。这里是匹配有若干个"s"的字符串
    [] 字符集匹配 [abc] 表示匹配"a","b"或"c"的字符串
    [^] 字符集不匹配 [^abc 表示不匹配"a","b","c"里的任意字符
    () 子表达式 ([0-9]{2})? 匹配两个或0个数字
    x{m,n} 区间表达式 a{2,3} 表示"a"重复2~3次
    • 扩展正则表达式的元字符
    元字符作用例子例子说明
    + 限定符,同* s+ "+"表示匹配其前导字符若干次,至少1次
    ? 限定符 ss? "?"表示前面的字符可以重复0或1次。这里是一个"s"后面可能再跟一个"s"
    • POSIX字符集

    不同国家的字符编码很有可能不同,例如:
    LANG=C:A B C D ... Z a b c d ...z
    LANG=zh_TW:a A b B c C d D ... z Z

    当采用第二种编码时,[A-Z]之间会包括小写字母b-z。所以为了避免这种问题,可以使用POSIX字符集来使用特定的字符类。

    字符类说明
    [:alnum:] 匹配任意一个字母或者数字,等价于A-Za-z0-9
    [:alpha:] 匹配任意一个字母,等价于A-Za-z
    [:digit:] 匹配任意一个数字,等价于0-9
    [:lower:] 匹配小写字母,等价于a-z
    [:upper:] 匹配大写字母,等价于A-Z
    [:graph:] 匹配一个看的见的字符,不包括空白字符
    [:print:] 匹配一个可以打印的字符
    [:blank:] 匹配空格和tab
    [:space:] 匹配一个空白字符,包括空格、tab、换行、分页符<
    [:punct:] 匹配一个标点符号
    [:xdigit:] 匹配一个十六进制数字,即0-9,a-f,A-F

    【注意】这些字符类要放在方括号中,才能表示字符集匹配:[[:alnum:]] = [A-Za-z0-9]

    三、grep与正则表达式的例子

    (1)简单匹配

    #匹配空行
    egrep "^$" testfile    
    
    #匹配所有英文字符
    egrep "[a-zA-Z]" testfile
    
    #匹配tast或者test
    egrep "t[ae]st" testfile
    
    #匹配以字符s开头,紧跟若干b的文件名
    ll | egrep "^sb*"
    
    #匹配txt文件
    ll | egrep ".txt$"      #这里的"."需要进行转义
    

    (2)复杂一些的匹配

    #匹配QQ号码,第一位不能是0,5位以上的数字。
    egrep "[1-9][0-9]{4,}" testfile
    
    #匹配IP地址,共4组数字,用"."隔开
    egrep "^([0-9]{1,2}|1[0-9]{2}|2[0-4][0-9]|25[0-5]).   #第一组数字
            ([0-9]{1,2}|1[0-9]{2}|2[0-4][0-9]|25[0-5]).   #第二组数字
            ([0-9]{1,2}|1[0-9]{2}|2[0-4][0-9]|25[0-5]).   #第三组数字
            ([0-9]{1,2}|1[0-9]{2}|2[0-4][0-9]|25[0-5])$"   #第四组数字
            testfile 
    
    #匹配邮箱地址
    egrep "^[a-z0-9]([a-z0-9]*[-_]?[a-z0-9]+)*@
           ([a-z0-9]*[-_]?[a-z0-9]+)+[.][a-z]{2,3}([.][a-z]{2})?$"
    

    此处注意:区间表达式{}应该写成"{}"表示转义,实验中发现加不加""转义都能得出正确结果,但是直接使用基本正则表达式(grep不加-E选项)则不行。所以应该是扩展正则表达式中取消了这个需要转义字符的地方。

    四、其他

    琐碎的片段:

    1. 当需要将元字符当作普通字符匹配的时候,需要转移字符"",但是当元字符位于"[]"中时,除了"-"或者"^"极少数元字符以外,其它的自动转义为普通字符。

    2. 正则表达式从左到右计算,遵循一定的优先级:转义符"" > 方括号"[]" > 分组 "()" > 限定符"*,+,?,{}" > 普通字符 > 定位符"^,$" > 或"|"。

    3. 匹配同一种字符可能有多种正则表达式的写法。

    4. shell本身不支持正则表达式,但是支持"*","?"等通配符。

    5. 支持正则表达式的还有sed命令,awk命令。以后可以详述。



    作者:tyrone_li
    链接:https://www.jianshu.com/p/6c04b85d4544
    来源:简书
    简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。
  • 相关阅读:
    day-11 python自带库实现2层简单神经网络算法
    day-10 sklearn库实现SVM支持向量算法
    day-9 sklearn库和python自带库实现最近邻KNN算法
    day-8 python自带库实现ID3决策树算法
    day-7 sklearn库实现ID3决策树算法
    day-6 机器学习概念及应用
    day-5 python协程与I/O编程深入浅出
    day-4 python多进程编程知识点汇总
    day-3 python多线程编程知识点汇总
    3、TensorFlow基础(一) 设计思想与编程模型
  • 原文地址:https://www.cnblogs.com/kakaisgood/p/11138702.html
Copyright © 2011-2022 走看看