zoukankan      html  css  js  c++  java
  • Python 爬虫-正则表达式

    2017-07-27 13:52:08

     一、正则表达式的概念

    (1)正则表达式是用来简洁表达一组字符串的表达式,最主要应用在字符串匹配中。

    • 正则表达式是用来简洁表达一组字符串的表达式
    • 正则表达式是一种通用的字符串表达框架
    • 正则表达式是一种针对字符串表达“简洁”和“特征”思想的工具
    • 正则表达式可以用来判断某字符串的特征归属

    (2)正则表达式是一个字符串,通过编译将符合正则表达式语法的字符串转换成正则表达式特征。

    二、正则表达式的语法

    正则表达式语法由字符和操作符构成。

    (1)正则表达式的操作符

    经典的正则表达式:

     

     

    三、Re库的使用

    re库采用原生字符串(raw string)来表达正则表达式。所谓原生字符串是指没有反义字符的字符串,也就是说在原生字符中‘’就是反斜杠,不是转义。使用原生字符串只需要在字符串前加上r即可。

    也可以使用正常的string字符串,不过使用string字符串的话需要很多的转义字符来表示单纯的反斜杠。

    Re库的主要功能函数:

    • re.search(pattern, string, flags=0):在一个字符串中搜索匹配正则表达式的第一个位置,返回match对象

    ∙ pattern : 正则表达式的字符串或原生字符串表示
    ∙ string : 待匹配字符串
    ∙ flags  : 正则表达式使用时的控制标记

     

    • re.match(pattern, string, flags=0):从一个字符串的开始位置起匹配正则表达式,返回match对象

    ∙ pattern : 正则表达式的字符串或原生字符串表示
    ∙ string : 待匹配字符串
    ∙ flags  : 正则表达式使用时的控制标记

    • re.findall(pattern, string, flags=0):搜索字符串,以列表类型返回全部能匹配的子串

    ∙ pattern : 正则表达式的字符串或原生字符串表示
    ∙ string : 待匹配字符串
    ∙ flags  : 正则表达式使用时的控制标记

    • re.split(pattern, string, maxsplit=0, flags=0):将一个字符串按照正则表达式匹配结果进行分割,返回列表类型

    ∙ pattern : 正则表达式的字符串或原生字符串表示
    ∙ string : 待匹配字符串
    ∙ maxsplit: 最大分割数,剩余部分作为最后一个元素输出
    ∙ flags  : 正则表达式使用时的控制标记

     

    • re.finditer(pattern, string, flags=0):搜索字符串,返回一个匹配结果的迭代类型,每个迭代元素是match对象

    ∙ pattern : 正则表达式的字符串或原生字符串表示
    ∙ string : 待匹配字符串
    ∙ flags  : 正则表达式使用时的控制标记

    • re.sub(pattern, repl, string, count=0, flags=0):在一个字符串中替换所有匹配正则表达式的子串,返回替换后的字符串

    ∙ pattern : 正则表达式的字符串或原生字符串表示
    ∙ repl : 替换匹配字符串的字符串
    ∙ string : 待匹配字符串
    ∙ count  : 匹配的最大替换次数
    ∙ flags  : 正则表达式使用时的控制标记

     

    正则表达式的另一种等价用法,使用 compile () 函数:

    经过了compile后的正则表达式可以使用如下函数,这里只需要给出需要匹配的字符串就可以了:

    三、Re库的match对象

    Match对象是一次匹配的结果,包含匹配的很多信息。

    •  match对象的属性

    • match对象的方法

    四、贪婪匹配与最小匹配

    Re库默认采用贪婪匹配,即输出匹配最长的子串;

    只要长度输出可能不同的,都可以通过在操作符后增加?变成最小匹配

     

  • 相关阅读:
    查找1
    动态规划
    分治
    [LeetCode] 1339. Maximum Product of Splitted Binary Tree
    [LeetCode] 1509. Minimum Difference Between Largest and Smallest Value in Three Moves
    [LeetCode] 233. Number of Digit One
    [LeetCode] 1963. Minimum Number of Swaps to Make the String Balanced
    [LeetCode] 1053. Previous Permutation With One Swap
    [LeetCode] 1962. Remove Stones to Minimize the Total
    [LeetCode] 1961. Check If String Is a Prefix of Array
  • 原文地址:https://www.cnblogs.com/hyserendipity/p/7244468.html
Copyright © 2011-2022 走看看