zoukankan      html  css  js  c++  java
  • Python 爬虫 1 (转)

    1、import urllib2

     
    response = urllib2.urlopen("http://www.baidu.com")
    print response.read()
    2、POST方式:
    import urllib
    import urllib2
     
    values = {"username":"1016903103@qq.com","password":"XXXX"}
    data = urllib.urlencode(values)
    url = "https://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn"
    request = urllib2.Request(url,data)
    response = urllib2.urlopen(request)
    print response.read()
    3、GET方式:
    直接把参数写到网址上面,直接构建一个带参数的URL出来即可
    geturl = url + "?"+data
    request = urllib2.Request(geturl)
    response = urllib2.urlopen(request)
    print response.read()
     
    print geturl,打印输出一下url,发现其实就是原来的url加?然后加编码后的参数

    2. Proxy(代理)的设置

    urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。假如一个网站它会检测某一段时间某个IP 的访问次数,如果访问次数过多,它会禁止你的访问。所以你可以设置一些代理服务器来帮助你做工作,每隔一段时间换一个代理,网站君都不知道是谁在捣鬼了,这酸爽!

  • 相关阅读:
    Android6.0权限组申请
    Win10安装程序出现error code 2502 2503
    StartUML2.8破解
    Batchsize与learning rate
    Tensorflow 多gpu训练
    centos7系统时间修复
    服务器安装小结
    caffe与tensorflow中的pooling
    MixConv
    blazeFace
  • 原文地址:https://www.cnblogs.com/lhq8998/p/7397340.html
Copyright © 2011-2022 走看看