简单的抓取程序
#!/usr/bin/env python#-*- coding:utf-8 -*-import sysimport urllib2wp = urllib2.urlopen('http://lvyou.baidu.com')content = wp.read()
fp = open('index.html','w')fp.write(content)fp.close()
通过抓取的内容可以进行内容的提取。这个还需要学习