zoukankan      html  css  js  c++  java
  • 第五章:正则表达式常见技巧

    1.原则

       匹配期望的文本,排除不期望的文本
       必要易于控制和理解
        NFA引擎保证效率(成功的效率和失败的效率)
     
    2.匹配文件路径
     
    3.匹配浮点数
       
    4.匹配引号包含的内容,内容可以是转义的字符(")
            
    多选分支的最好不要有重叠部分(两者都可以匹配的情况)
    5.
     
    6.对正在表达式应用方式和目标数据做出合理的假设
     
    7.消除每行(包括只有空格的行,行首与行尾的空白字符)
     
    8.
        匹配html标签 
      因为每个分支都是互斥的,就是说如果多选结构匹配成功,后面的'>'匹配失败的情况下,回溯其他分支肯定会失败所以使用了固话分组,另外由于不需要保存匹配的文本所以使用了非捕获型括号
     
    9.在html文件中获取url及对应的文字
      保留所有的<a>元素
      筛选  文字和对应的url
      分离主机,端口,路径
     
    10.匹配主机部分
     
    11.用环视功能处理诸如右边出现了n的倍数次**记得给出算倍数的锚点位置(^,$,<,>)
    eg:连续数字,五个为一组,筛选以44开头的组
  • 相关阅读:
    Flink之DataStreamAPI入门
    Spark底层原理简化版
    Spark调优
    Flink架构及其工作原理
    Kafka总结
    leetcode数学相关
    程序员的修炼之道5
    数据库连库建表
    完成了web系统
    即将完成大型web系统
  • 原文地址:https://www.cnblogs.com/manziluo/p/5788311.html
Copyright © 2011-2022 走看看