zoukankan      html  css  js  c++  java
  • (参考)爬虫6-正则表达式基础知识

    正则表达式用来简洁表达一组字符串。

    一行胜千言

    如用'PY+'表示'PY' 'PYY' 'PYYY' 'PYYYY....'等字符串

    如果,以‘PY’开头,后续存在不多于10个字符,后续字符不能是‘P’或‘Y’,可以用‘PY[^PY]{0,10}’表示

     正则表达式在文本处理中十分常用:

    1、表达文本类型的特征(病毒,入侵等)

    2、同时查找或替换一组字符串

    3、匹配字符串的全部或部分(最常用)

    正则表达式的使用:

    编译:将符合正则表达式语法的字符串转换成正则表达式特征

    语法:由字符和操作符构成

    操作符 说明 实例
    . 表示单个字符  
    [ ] 字符集,对单个字符给出取值范围 [abc]表示a,b,c,[a-z]表示a到z单个字符
    [^  ] 非字符集,对单个字符给出排除范围 [^abc]表示非a 非b 非c的单个字符
    * 前一个字符0次或无限次扩展 abc*表示ababcabccabccc等
    + 前一个字符1次或无限次扩展 abc+表示abcabccabccc等
    ? 前一个字符0次或1次扩展 abc?表示ababc
    | 左右表达式任意一个 abc|def表示abcdef
    {m} 扩展前一个字符m次 ab{2}表示abbc
    {m,n} 扩展前一个字符m至n次 ab{1,2}c表示abcabbc
    ^ 匹配字符串开头 ^abc表示abc且在一个字符串的开头
    $ 匹配字符串结尾 $abc表示abc且在一个字符串的结尾
    () 分组标记,内部只能使用|操作符 (abc)表示abc,(abc|def)表示abcdef
    d 数字,等价于[0-9]  
    w 单词字符,等价于[A-Za-z0-9]  

    例子:

    匹配IP地址的正则表达式

    IP地址分4段,每段0-255:

    d+.d+.d+.d+  或者 d{1,3}.d{1,3}.d{1,3}.d{1,3}

    精确的IP地址表达式:

  • 相关阅读:
    修改jupyter notebook主题、字体和启动路径
    numpy-matrix 方法速查
    Pycharm配置github
    数据库索引
    Matplotlib简单入门学习
    基础算法简单实现-python
    Learn Spring Framework(continue update...)
    "Hello World!" for Microsoft Windows
    "Hello World!" for the NetBeans IDE
    Lesson: The "Hello World!" Application
  • 原文地址:https://www.cnblogs.com/rayshaw/p/8612906.html
Copyright © 2011-2022 走看看