zoukankan      html  css  js  c++  java
  • 爬虫模块儿之urllib.request

    导入方法 import  urllib.request: 

    1,urllib.request.urlopen() :打开网页
    2,urllib.request.urlretrieve(url,filename,reporthook,data)
    参数说明:
    url:外部或者本地url
    filename:指定了保存到本地的路径(如果未指定该参数,urllib会生成一个临时文件来保存数据);
    reporthook:是一个回调函数,当连接上服务器、以及相应的数据块传输完毕的时候会触发该回调。我们可以利用这个回调函数来显示当前的下载进度。
    data:指post到服务器的数据。该方法返回一个包含两个元素的元组(filename, headers),filename表示保存到本地的路径,header表示服务器的响应头。
    import urllib

    def callbackfunc(blocknum, blocksize, totalsize):

    '''回调函数

    @blocknum: 已经下载的数据块

    @blocksize: 数据块的大小

    @totalsize: 远程文件的大小

    '''

    percent = 100.0 * blocknum * blocksize / totalsize

    if percent > 100:

    percent = 100

    print "%.2f%%"% percent
    url = 'http://www.sina.com.cn'
    local = 'd:\sina.html'
    urllib.urlretrieve(url, local, callbackfunc)

  • 相关阅读:
    Sql Server 2016 创建内存数据库
    SQL 系统表应用
    EF 编程经验
    JSP JDBC 读取SQL Server 数据2
    JSP 使用 JDBC连接SQL Server
    JSP 用poi 读取Excel
    解析SQL中的包含的列和表
    dotnet core 入门
    <<你的灯亮着吗?>>读书笔记
    需求分析过程工具产物表
  • 原文地址:https://www.cnblogs.com/hlan/p/6709518.html
Copyright © 2011-2022 走看看