zoukankan      html  css  js  c++  java
  • Python爬虫1-----urllib模块

    1、加载urllib模块的request

    from urllib import request

    2、相关函数:

    (1)urlopen函数:读取网页

    • webpage=request.urlopen(url,timeout=1)   【读取网页,参数timeout表示1秒之后为超时,遇到无效网页时可以跳过】
    • data=webpage.read()   【读取页面内容】

      【使用webpage.read()读取的页面内容text内容为bytes-object,打印内容为b’……‘】

    • data=data.decode('utf-8')    【解码】

      【text为bytes-object,将其转换为字符串text.decode(),默认参数为空,也可使用编码方式参数,格式为decode(“gb2312”)。】

    • pat='<div class="name">(.*?)</div>'

      res=re.compile(pat).findall(str(data))【记得str(data)】

      【无法直接使用到re.search(),使用前需要转换为string类型。res就是获取的内容】

    (2)urlretrieve函数:读取网页并可以保存在本地,成为本地网页

    • urllib.request.urlretrieve( url , filename=" 本地文件地址//1.html" )

    (3)urlcleanup()函数:使用urlretrieve函数会导致一些缓存,使用它可以清除。

    • urllib.request.urlcleanup()

    (4)info()函数:返回网页的一些信息。

    (5)getcode():若返回200表明爬取正常

    (6)geturl():返回正在爬取的网页

    (7)(可以查一下llib.request.Request函数)post和get请求

  • 相关阅读:
    开发实例
    一张图解析FastAdmin中的表格列表的功能
    fastAdmin进阶
    detailFormatter bootstrapTable
    responseHandler
    自定义PDO封装类
    bootstrapTable
    Thread Safety
    FastAdmin 基本知识流程一栏
    thinkphp5 Request请求类
  • 原文地址:https://www.cnblogs.com/Lee-yl/p/9010759.html
Copyright © 2011-2022 走看看