zoukankan      html  css  js  c++  java
  • Python Web 访问

    1. 获取web页面

    读取一个页面:

    import urllib2

    req = urllib2.Request('http://www.python.org')

    page = urllib2.urlopen(req)

    for line in page:

        sys.stdout.write(line)

    如果Request的网址没带协议的话会报错。

    可以使用info()方法获得网页的headers

    import urllib2

    req = urllib2.Request('http://www.python.org/')

    page = urllib2.urlopen(req)

    info = page.info()

    print info

    执行结果:

    >>>

    Date: Fri, 12 Jun 2009 13:07:11 GMT

    Server: Apache/2.2.9 (Debian) DAV/2 SVN/1.5.1 mod_ssl/2.2.9 OpenSSL/0.9.8g mod_wsgi/2.3 Python/2.5.2

    Last-Modified: Fri, 12 Jun 2009 10:01:57 GMT

    ETag: "105800d-43bd-46c23cc794f40"

    Accept-Ranges: bytes

    Content-Length: 17341

    Connection: close

    Content-Type: text/html

    2. 认证

    dump_info_auth.py展示了如何使用urllib2打开需要验证的页面。

    3. 提交表单数据

    GET方法,可以手工构造url。也可以使用urlliburlencode方法:

    import urllib2, urllib

    url = 'http://www.wunderground.com/cgi-bin/findweather/getForecast'

    url = url + '?' + urllib.urlencode([('query','shenyang')])

    #print url

    req = urllib2.Request(url)

    page = urllib2.urlopen(req)

    info = page.info()

    print info

     

    POST方法,与GET方法不同,不能手工构造查询字符串。而需要将数据作为参数传递给urlopen()方法。

    import urllib2, urllib

    url = 'http://www.wunderground.com/cgi-bin/findweather/getForecast'

    data = urllib.urlencode([('query','shenyang')])

    req = urllib2.Request(url)

    page = urllib2.urlopen(req,data)

    info = page.info()

    print info

    4. 处理错误

    error_all.py在连接的过程中捕获异常,并且检查文档的长度和Content-Length是否一致。

    7 解析HTMLXHTML

    使用Python自带的HTMLParser模块。下面的程序就可以获得一个文档的title以及标签个数。

    # -*- coding: cp936 -*-

    from HTMLParser import HTMLParser

    import urllib2

    #解析网页的title

    class TitleParser(HTMLParser):

        def __init__(self):

            #title的数据

            self.title = ''

            self.readingtitle = 0

            self.count = 0

            HTMLParser.__init__(self)

     

        def handle_starttag(self, tag, attrs):

            self.count += 1

            if tag == 'title':

                self.readingtitle = 1

               

        def handle_data(self, data):

            if self.readingtitle:

                self.title = data

     

        def handle_endtag(self, tag):

            if tag == 'title':

                self.readingtitle = 0

  • 相关阅读:
    201771010101 白玛次仁 《2018面向对象程序设计(Java)》第十六周学习总结
    201771010101 白玛次仁 《2018面向对象程序设计(Java)》第十五周学习总结
    201771010101 白玛次仁 《2018面向对象程序设计(Java)》第十四周学习总结
    201771010101 白玛次仁 《2018面向对象程序设计(Java)》第十三周学习总结
    十三周作业
    第十三周上机作业
    第十二周作业
    第十二周上机练习
    第十一周作业
    第十一周上机练习
  • 原文地址:https://www.cnblogs.com/lhj588/p/2521692.html
Copyright © 2011-2022 走看看