Python 爬虫 1 （转） - 走看看

zoukankan html css js c++ java

Python 爬虫 1 （转）

1、import urllib2

response = urllib2.urlopen("http://www.baidu.com")

print response.read()

2、POST方式：

import urllib
import urllib2

values = {"username":"1016903103@qq.com","password":"XXXX"}

data = urllib.urlencode(values)

url = "https://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn"

request = urllib2.Request(url,data)

response = urllib2.urlopen(request)

print response.read()

3、GET方式：

直接把参数写到网址上面，直接构建一个带参数的URL出来即可

geturl = url + "?"+data
request = urllib2.Request(geturl)

response = urllib2.urlopen(request)

print response.read()

print geturl，打印输出一下url，发现其实就是原来的url加？然后加编码后的参数

2. Proxy（代理）的设置

urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。假如一个网站它会检测某一段时间某个IP 的访问次数，如果访问次数过多，它会禁止你的访问。所以你可以设置一些代理服务器来帮助你做工作，每隔一段时间换一个代理，网站君都不知道是谁在捣鬼了，这酸爽！

查看全文

相关阅读:
网页返回码大全
 求数组中子数组的最大和
 什么是面向对象？面向对象与面向过程的区别？
Java内部类
 Java拆箱装箱
 linux中su和sudo区别
 Linux 中账户管理
 解决warn appiumdoctor bin directory for $java_home is not set
Moco之include
Mock server 之 Moco的使用

原文地址：https://www.cnblogs.com/lhq8998/p/7397340.html

Copyright © 2011-2022 走看看