zoukankan      html  css  js  c++  java
  • 正则表达式

    正则表达式

    正则表达式的基础知识

    • 原子

      • 普通字符 “yue”即为三个原子y u e
      • 非打印字符
      • 原子表
        • [xyz]中xyz可以匹配
        • [^xyz]除了xzy都可以匹配
      • 通用字符
        • w W d D s S
    • 元字符

      • 常见的元字符image-20200202223452177
      • 任意匹配元字符
      • 边界限制元字符
      • 限定符
      • 模式选择符
      • 模式单元
    • 模式修正

      • image-20200202224119818
    • 贪婪模式与懒惰模式

    正则表达式常见函数

    • re.match()函数
      • 从源字符开头开始检索
    • re.search()
      • 从全文检索
    • 全局匹配函数
      • re.compile()对正则表达式预编译
      • 编译后,使用findall()全部找出
    • re.sub()函数
      • re.sub(pattern,rep,string,max)
      • pattern 正则表达式
      • rep要替换成的字符
      • string 源字符
      • max 代表最多可替换的次数

    Cookie

    • Cookie常用于保存会话信息

    Cookiejar

    Cookiejar是Python3中用于处理Cookie的库。

    进行Cookie处理的常用思路:

    1. 导入Cookie处理模块http.cookiejar
    2. 使用http.cookiejar.CookieJar()创建CookieJar对象
    3. 使用HTTPCookieProcessor创建cookie处理器,并以其为参数构建opener对象
    4. 创建全局默认的opener对象

    多线程爬虫

    Trackback解读

    ​ Trackback

    你好啊,谢谢你来看我。
  • 相关阅读:
    dnn
    DATAGRID学习
    在.net下的换行符
    treeview
    《25项最优时间管理工具与技巧》
    vim常用操作
    【Google给毕业生的忠告】
    MySQL的安装、使用及权限管理
    各种国际化标准组织
    ubuntu thunderbird 邮箱 163 配置 不能发送问题
  • 原文地址:https://www.cnblogs.com/sitr/p/12260736.html
Copyright © 2011-2022 走看看