(16)网络爬虫 - 走看看

zoukankan html css js c++ java

(16)网络爬虫
爬取整个静态网页代码，并存入文件。
import urllib2 response =urllib2.urlopen("http://www.baidu.com") str=response.read() #print str f = open('D:/baidu.txt','w+') f.write(str) f.close()
urlopen(url,data,timeout)

第一个参数是网址，要带协议（http）

二三参数可选,意思暂时不知道

动态的暂时不会。。

加request
import urllib2 request = urllib2.Request("http://www.baidu.com") response = urllib2.urlopen(request) print response.read()
urllib.urlretrieve

将远程数据下载到本地
urlretrieve(url, filename=None, reporthook=None, data=None)
参数

url：网址

filename：参数 finename 指定了保存本地路径（如果参数未指定，urllib会生成一个临时文件保存数据。）

reporthook：参数 reporthook 是一个回调函数，当连接上服务器、以及相应的数据块传输完毕时会触发该回调，我们可以利用这个回调函数来显示当前的下载进度

data:参数 data 指 post 到服务器的数据，该方法返回一个包含两个元素的(filename, headers)元组，filename 表示保存到本地的路径，header 表示服务器的响应头。
查看全文

相关阅读:
java课堂作业（四）
java听课笔记（五）
rsync 无密码传输文件
 HTTP返回码总结（zz）
打印1到最大的n位数
 两个栈模拟队列
 合并有序数组
 vim MiniBufExplorer 插件
 crontab 定时任务格式
 JNI调用测试

原文地址：https://www.cnblogs.com/buchizaodian/p/7144757.html

Copyright © 2011-2022 走看看