zoukankan      html  css  js  c++  java
  • 网络爬虫的正则表达式

    0x00 re正则表达式


    正则表达式:

    • 通用字符串表达的框架
    • 简洁表达一组字符串的表达式
    • 针对字符串表达“简洁”和“特征”思想的工具

    正则表达式在文本处理中的作用:

    • 表达文本类型
    • 同时查找和替换一组字符串
    • 匹配字符串的全部或部分

    正则表达式常用操作符:

    正则表达式语法实例:

    经典的正则表达式实例:

    实例:匹配IP地址的正则表达式

    IP地址字符串形式的正则表达式

    (IP地址分四段,每段范围0-255)

                        精确写法

                        0-99 : [1-9]?d                   100-199: 1d{2}

                        200-249:2[0-4]d               250-255: 25[0-5]

                        完整表达形式:

                        (([1-9]?d|1d{2}|2[0-4]d|25[0-5]).){3}([1-9]?d|1d{2}|2[0-4]d|25[0-5])

     

    0x01  re库的使用

     


    re库的主要函数功能:

     

    re库的另一种等价用法

     

    re库的match对象

    match对象的属性

     

    match对象的方法

     

    re库默认使用贪婪匹配,即输出匹配的最长字符串,如

     

    为了实现最小匹配,修改代码

    最小匹配操作符

  • 相关阅读:
    编写一个最原始的Servlet
    windows 通过cmd使用tail命令
    windows 配置jdk8环境变量
    Windows tomcat简单使用
    红黑树
    HashMap源码分析--jdk1.7
    IDEA debug断点调试技巧--转载
    idea 调试的时候变量的值变成了jar包显示
    浅谈Java中的hashcode方法--转载
    家庭记账本之微信小程序(八)
  • 原文地址:https://www.cnblogs.com/Ragd0ll/p/10252027.html
Copyright © 2011-2022 走看看