zoukankan      html  css  js  c++  java
  • Python的爬虫利器之urllib

     

    urllib包 


    urllib是一个包含几个模块来处理请求的库: 
    - urllib.request发送http请求 
    - urllib.error处理请求过程中出现的异常 
    - urllib.parse解析url 
    - urllib.robotparser解析robots.txt文件

    一般我们爬虫只需要常用的几个,下面只列出比较常用的函数

    我们使用urllib模块,那就要引用模块
    
    import urllib.request

    urlreteieve:直接下载网页到本地

    格式


    urlreteieve(网址,本地的文件)

    示例:

    import urllib.request
    urllib.request.urlretrieve("https://read.douban.com/provider/all","F:/test/down.html")
    print("下载完成")

    urlcleanup:清楚系统缓存

    import urllib.request
    urllib.request.urlcleanup()
    urllib.request.urlretrieve("https://read.douban.com/provider/all","F:/test/down.html")
    print("下载完成")


    info() :看相应情况的简介

    import urllib.request
    file=urllib.request.urlopen("https://read.douban.com/provider/all")
    print(file.info())

    getcode() 返回网页爬取状态码

    geturl()  获取当前访问的网页的url

  • 相关阅读:
    封装图片处理类(缩略图)
    封装表单验证类
    魔术方法
    封装自己的smartyBC类
    快捷键
    unicode
    基本数据类型课上练习
    数制总结
    12.29.作业
    12.28作业
  • 原文地址:https://www.cnblogs.com/heian99/p/11972256.html
Copyright © 2011-2022 走看看