zoukankan      html  css  js  c++  java
  • (16)网络爬虫

    爬取整个静态网页代码,并存入文件。

    import  urllib2
    
    response =urllib2.urlopen("http://www.baidu.com")
    str=response.read()
    #print str
    f = open('D:/baidu.txt','w+')
    f.write(str)
    f.close()

    urlopen(url,data,timeout)

    第一个参数是网址,要带协议(http)

    二三参数可选,意思暂时不知道

    动态的暂时不会。。

    加request

    import urllib2
     
    request = urllib2.Request("http://www.baidu.com")
    response = urllib2.urlopen(request)
    print response.read()

    urllib.urlretrieve

    将远程数据下载到本地

    urlretrieve(url, filename=None, reporthook=None, data=None)

    参数

    url:网址

    filename:参数 finename 指定了保存本地路径(如果参数未指定,urllib会生成一个临时文件保存数据。)

    reporthook:参数 reporthook 是一个回调函数,当连接上服务器、以及相应的数据块传输完毕时会触发该回调,我们可以利用这个回调函数来显示当前的下载进度

    data:参数 data 指 post 到服务器的数据,该方法返回一个包含两个元素的(filename, headers)元组,filename 表示保存到本地的路径,header 表示服务器的响应头。

  • 相关阅读:
    java课堂作业(四)
    java听课笔记(五)
    rsync 无密码传输文件
    HTTP返回码总结 (zz)
    打印1到最大的n位数
    两个栈模拟队列
    合并有序数组
    vim MiniBufExplorer 插件
    crontab 定时任务格式
    JNI调用测试
  • 原文地址:https://www.cnblogs.com/buchizaodian/p/7144757.html
Copyright © 2011-2022 走看看