zoukankan      html  css  js  c++  java
  • Python爬虫1-----urllib模块

    1、加载urllib模块的request

    from urllib import request

    2、相关函数:

    (1)urlopen函数:读取网页

    • webpage=request.urlopen(url,timeout=1)   【读取网页,参数timeout表示1秒之后为超时,遇到无效网页时可以跳过】
    • data=webpage.read()   【读取页面内容】

      【使用webpage.read()读取的页面内容text内容为bytes-object,打印内容为b’……‘】

    • data=data.decode('utf-8')    【解码】

      【text为bytes-object,将其转换为字符串text.decode(),默认参数为空,也可使用编码方式参数,格式为decode(“gb2312”)。】

    • pat='<div class="name">(.*?)</div>'

      res=re.compile(pat).findall(str(data))【记得str(data)】

      【无法直接使用到re.search(),使用前需要转换为string类型。res就是获取的内容】

    (2)urlretrieve函数:读取网页并可以保存在本地,成为本地网页

    • urllib.request.urlretrieve( url , filename=" 本地文件地址//1.html" )

    (3)urlcleanup()函数:使用urlretrieve函数会导致一些缓存,使用它可以清除。

    • urllib.request.urlcleanup()

    (4)info()函数:返回网页的一些信息。

    (5)getcode():若返回200表明爬取正常

    (6)geturl():返回正在爬取的网页

    (7)(可以查一下llib.request.Request函数)post和get请求

  • 相关阅读:
    SQL 启动服务方法
    SQL 2012 连接失败
    数据库 基本操作有哪些
    windows 计算机 管理 命令
    windows下编译使用NDK,调用SO文件
    windows 注册表命令
    spring @Transactional 声明式事务
    Set List Map
    bean 的各个属性
    util:
  • 原文地址:https://www.cnblogs.com/Lee-yl/p/9010759.html
Copyright © 2011-2022 走看看