[python脚本]一个简单的web爬虫（1）

zoukankan html css js c++ java

[python脚本]一个简单的web爬虫（1）

个人简单的写了个爬虫，可以爬页面链接和多媒体链接，当然这个只适用于一般的网站，没啥技术含量，纯属练手只用·········
不过以后我还会在改进的。现在而且只能爬单个页面，呵呵·······
python确实简单，20几行的代码就可以解决（我这代码27行以后都没用，纯属自己弄着完的）
1 #filename:Spider1.py
2 #version:1.0
3 #--coding: utf-8--
4 #author: Scr@t
5
6 import sys
7 import urllib2
8 import re
9 import HTMLParser
10
11 class myparser(HTMLParser.HTMLParser):
12     def __init__(self):
13         HTMLParser.HTMLParser.__init__(self)
14     def handle_starttag(self,tag,attrs):
15         if (tag == 'a')|(tag == 'img'):#查询标签是否为网址链接或多媒体链接
16             for name,value in attrs:
17                 if (name == 'href')|(name == 'src'):#查询该上面两个标签的属性
18                     val = re.search('http://',value)#匹配链接是否为可用链接（有的时候会有空链接的）
19                     if val != None:
20                          print value
21
22 if sys.argv[1] == '-u':
23     content = (urllib2.urlopen(sys.argv[2])).read()#打开网址并读取内容
24     con = myparser()
25     con.feed(content)#把content的内容，传给myparser分析
26 else:
27     print 'Usage:%s -u url'%sys.argv[0]
28 print """
29 -------------------------------------------------------------------------------------------
30   |        **        **        **   ******************   *****************              |
31   |         **      ****      **    **                   **               *             |
32   |          **    **  **    **     ****************     *****************              |
33   |           **  **    **  **      **                   **               *             |
34   |            ****      ****       **                   **               *             |
35   |             **        **        ******************   *****************              |
36   |                                                                                     |
37   |    *****     **********   **********  ***********    *************  ************    |
38   |  ********   **        **      **      **        **   **             **         **   |
39   |   **    **  **        **      **      **         **  **             **         **   |
40   |    **       **        **      **      **          ** **             **         **   |
41   |     ***     ***********       **      **          ** *************  ************    |
42   |       **    **                **      **          ** **             ** **           |
43   | **     **   **                **      **         **  **             **    **        |
44   |  ********   **                **      **        **   **             **      **      |
45   |   ******    **            **********  ***********    *************  **        **    |
46   |                                                                                     |
47   |              author:scr@t                              version: 1.0                 |
48   |                                                                                     |
49 -------------------------------------------------------------------------------------------
50 """
  好了下面给张图片·················爬的百度首页··········

----------------------------------------------在穷无非讨饭，不死终会出头。

查看全文

相关阅读:
寒假瞎搞系列（5）
《亿级用户下的新浪微博平台架构》阅读笔记
 《蚂蚁金服11.11：支付宝和蚂蚁花呗的技术架构及实践》阅读笔记
 《游戏服务器的架构演进(完整版)》阅读笔记
 阅读架构漫谈（四）笔记
 阅读架构漫谈（三）笔记
 阅读架构漫谈（二）笔记
 以《淘宝网》为例，描绘质量属性的六个常见属性场景
 阅读架构漫谈（一）笔记
 假期周进度总结2

原文地址：https://www.cnblogs.com/scrat/p/2595372.html