zoukankan      html  css  js  c++  java
  • Python抓取网页内容应用代码分析

    我们今天将会通过这篇文章,为大家详细介绍一下Python抓取网页内容的两种不同方法。大家可以以此为参考对象,在实际应用中选择一种适合自己的应用方式来帮助我们完成实际开发中的需求。

    Python抓取网页内容方法一、用urllib2/sgmllib包,将目标网页的所有URL列出。

    import urllib2  
    from sgmllib import SGMLParser   
    class URLLister(SGMLParser):  
    def reset(self):   
    SGMLParser.reset(self)  
    self.urls = []  
    def start_a(self, attrs):   
    href = [v for k, v in attrs if k=='href']   
    if href:  
    self.urls.extend(href)  
    f = urllib2.urlopen("http://www.donews.com/")  
    if f.code == 200:  
    parser = URLLister()  
    parser.feed(f.read())  
    f.close()  
    for url in parser.urls: print url 
    

      

    Python抓取网页内容方法二、用python调用IE抓取目标网页(Require win32com, pythoncom)的所有图像的url和大小

    import win32com.client, pythoncom  
    import time  
    
    ie = win32com.client.DispatchEx('InternetExplorer.Application.1')  
    
    ie.Visible = 1 
    
    ie.Navigate("http://news.sina.com.cn")  
    
    while ie.Busy:  
    
    time.sleep(0.05)  
    
    doc = ie.Document  
    
    for i in doc.images:  
    
    print i.src, i.width, i.height 
    

      

     

    这种方法可以利用IE本身的Javascript. DHTML的支持,来做自动提交Form,和处理Javascript。

    以上就是我们为大家介绍的Python抓取网页内容的两种不同的方法。

    转自http://syue.com/Software/Language/Python/876.html

  • 相关阅读:
    java下载url图片链接
    mysql 设计索引的原则
    169. 多数元素
    263. 丑数
    markdown 语法笔记
    70.爬楼梯
    540. 有序数组中的单一元素
    88. 合并两个有序数组
    面试题57
    152. 乘积最大子序列
  • 原文地址:https://www.cnblogs.com/alexkh/p/2770409.html
Copyright © 2011-2022 走看看