Python抓取网页内容应用代码分析 - 走看看

zoukankan html css js c++ java

Python抓取网页内容应用代码分析
我们今天将会通过这篇文章，为大家详细介绍一下Python抓取网页内容的两种不同方法。大家可以以此为参考对象，在实际应用中选择一种适合自己的应用方式来帮助我们完成实际开发中的需求。

Python抓取网页内容方法一、用urllib2/sgmllib包，将目标网页的所有URL列出。
import urllib2 from sgmllib import SGMLParser class URLLister(SGMLParser): def reset(self): SGMLParser.reset(self) self.urls = [] def start_a(self, attrs): href = [v for k, v in attrs if k=='href'] if href: self.urls.extend(href) f = urllib2.urlopen("http://www.donews.com/") if f.code == 200: parser = URLLister() parser.feed(f.read()) f.close() for url in parser.urls: print url
　　

Python抓取网页内容方法二、用python调用IE抓取目标网页（Require win32com, pythoncom）的所有图像的url和大小
import win32com.client, pythoncom import time ie = win32com.client.DispatchEx('InternetExplorer.Application.1') ie.Visible = 1 ie.Navigate("http://news.sina.com.cn") while ie.Busy: time.sleep(0.05) doc = ie.Document for i in doc.images: print i.src, i.width, i.height
　　

这种方法可以利用IE本身的Javascript. DHTML的支持，来做自动提交Form,和处理Javascript。

以上就是我们为大家介绍的Python抓取网页内容的两种不同的方法。

转自http://syue.com/Software/Language/Python/876.html
查看全文

相关阅读:
Spring.Net AOP的通知类型及通知链
 Spring.Net框架介绍及基本配置（学习笔记一）
Spring.Net对方法的注入（学习笔记三）
Spring通过容器获取配置对象及事件注入(学习笔记二)
SqlServer2008 数据库同步的两种方式(Sql JOB)
AOPUnity使用初探
 PIABPolicy Injection Application Block
LINQ查询基础
 C#泛型基础
 [转载]CSS块级元素和行内元素

原文地址：https://www.cnblogs.com/alexkh/p/2770409.html

Copyright © 2011-2022 走看看