zoukankan      html  css  js  c++  java
  • 网络爬虫的正则表达式

    0x00 re正则表达式


    正则表达式:

    • 通用字符串表达的框架
    • 简洁表达一组字符串的表达式
    • 针对字符串表达“简洁”和“特征”思想的工具

    正则表达式在文本处理中的作用:

    • 表达文本类型
    • 同时查找和替换一组字符串
    • 匹配字符串的全部或部分

    正则表达式常用操作符:

    正则表达式语法实例:

    经典的正则表达式实例:

    实例:匹配IP地址的正则表达式

    IP地址字符串形式的正则表达式

    (IP地址分四段,每段范围0-255)

                        精确写法

                        0-99 : [1-9]?d                   100-199: 1d{2}

                        200-249:2[0-4]d               250-255: 25[0-5]

                        完整表达形式:

                        (([1-9]?d|1d{2}|2[0-4]d|25[0-5]).){3}([1-9]?d|1d{2}|2[0-4]d|25[0-5])

     

    0x01  re库的使用

     


    re库的主要函数功能:

     

    re库的另一种等价用法

     

    re库的match对象

    match对象的属性

     

    match对象的方法

     

    re库默认使用贪婪匹配,即输出匹配的最长字符串,如

     

    为了实现最小匹配,修改代码

    最小匹配操作符

  • 相关阅读:
    Spider爬虫清洗数据(re方法)
    Python 操作 mongodb 数据库
    python操作mysql数据库
    BeautifulSoup高级应用 之 CSS selectors /CSS 选择器
    mongoDB在centos7上的安装
    CentOS7安装mongoDB数据库
    [洛谷P4602] CTSC2018 混合果汁
    [洛谷P2605] ZJOI2016 基站选址
    [CF1039D] You Are Given a Tree
    [CF1105E] Helping Hiaset
  • 原文地址:https://www.cnblogs.com/Ragd0ll/p/10252027.html
Copyright © 2011-2022 走看看