zoukankan      html  css  js  c++  java
  • 网络爬虫的正则表达式

    0x00 re正则表达式


    正则表达式:

    • 通用字符串表达的框架
    • 简洁表达一组字符串的表达式
    • 针对字符串表达“简洁”和“特征”思想的工具

    正则表达式在文本处理中的作用:

    • 表达文本类型
    • 同时查找和替换一组字符串
    • 匹配字符串的全部或部分

    正则表达式常用操作符:

    正则表达式语法实例:

    经典的正则表达式实例:

    实例:匹配IP地址的正则表达式

    IP地址字符串形式的正则表达式

    (IP地址分四段,每段范围0-255)

                        精确写法

                        0-99 : [1-9]?d                   100-199: 1d{2}

                        200-249:2[0-4]d               250-255: 25[0-5]

                        完整表达形式:

                        (([1-9]?d|1d{2}|2[0-4]d|25[0-5]).){3}([1-9]?d|1d{2}|2[0-4]d|25[0-5])

     

    0x01  re库的使用

     


    re库的主要函数功能:

     

    re库的另一种等价用法

     

    re库的match对象

    match对象的属性

     

    match对象的方法

     

    re库默认使用贪婪匹配,即输出匹配的最长字符串,如

     

    为了实现最小匹配,修改代码

    最小匹配操作符

  • 相关阅读:
    RUST实践.md
    redis.md
    opencvrust.md
    aws rds can't connect to mysql server on 'xx'
    Foundation ActionScript 3.0 With Flash CS3 And Flex
    Foundation Flash Applications for Mobile Devices
    Flash Mobile Developing Android and iOS Applications
    Flash Game Development by Example
    Actionscript 3.0 迁移指南
    在SWT中非UI线程控制界面
  • 原文地址:https://www.cnblogs.com/Ragd0ll/p/10252027.html
Copyright © 2011-2022 走看看