zoukankan      html  css  js  c++  java
  • [python脚本]一个简单的web爬虫(1)

            个人简单的写了个爬虫,可以爬页面链接和多媒体链接,当然这个只适用于一般的网站,没啥技术含量,纯属练手只用·········

             不过以后我还会在改进的。现在而且只能爬单个页面,呵呵·······

             python确实简单,20几行的代码 就可以解决(我这代码27行以后都没用,纯属自己弄着完的)

     1 #filename:Spider1.py
     2 #version:1.0
     3 #--coding: utf-8--
     4 #author: Scr@t
     5 
     6 import sys
     7 import urllib2
     8 import re
     9 import HTMLParser
    10 
    11 class myparser(HTMLParser.HTMLParser):
    12     def __init__(self):
    13         HTMLParser.HTMLParser.__init__(self)
    14     def handle_starttag(self,tag,attrs):
    15         if (tag == 'a')|(tag == 'img'):#查询标签是否为网址链接或多媒体链接
    16             for name,value in attrs:
    17                 if (name == 'href')|(name == 'src'):#查询该上面两个标签的属性
    18                     val = re.search('http://',value)#匹配链接是否为可用链接(有的时候会有空链接的)
    19                     if val != None:
    20                          print value     
    21                           
    22 if sys.argv[1] == '-u':
    23     content = (urllib2.urlopen(sys.argv[2])).read()#打开网址并读取内容
    24     con = myparser()
    25     con.feed(content)#把content的内容,传给myparser分析
    26 else:
    27     print 'Usage:%s -u url'%sys.argv[0] 
    28 print """                                                                                                                       
    29 -------------------------------------------------------------------------------------------                                                                                                                      
    30   |        **        **        **   ******************   *****************              |
    31   |         **      ****      **    **                   **               *             |
    32   |          **    **  **    **     ****************     *****************              |
    33   |           **  **    **  **      **                   **               *             |
    34   |            ****      ****       **                   **               *             |
    35   |             **        **        ******************   *****************              |
    36   |                                                                                     |
    37   |    *****     **********   **********  ***********    *************  ************    |
    38   |  ********   **        **      **      **        **   **             **         **   |
    39   |   **    **  **        **      **      **         **  **             **         **   |
    40   |    **       **        **      **      **          ** **             **         **   |
    41   |     ***     ***********       **      **          ** *************  ************    |
    42   |       **    **                **      **          ** **             ** **           |
    43   | **     **   **                **      **         **  **             **    **        |
    44   |  ********   **                **      **        **   **             **      **      |
    45   |   ******    **            **********  ***********    *************  **        **    |
    46   |                                                                                     |
    47   |              author:scr@t                              version: 1.0                 |
    48   |                                                                                     |
    49 -------------------------------------------------------------------------------------------

    50 """   

              好了下面给张图片·················爬的百度首页··········

     

  • 相关阅读:
    将springboot安装成windows服务启动。
    jackson将json数组转成List、普通数组。
    maven编译正常,运行报错:中没有主清单属性
    [SQL]SUTFF内置函数的用法 (删除指定长度的字符并在指定的起始点插入另一组字符)
    sql语句中charindex的用法 可用于截取字符串
    C# 中怎么将string转换成int型
    C#判断奇偶数的函數
    asp.net 下载Excel (数据流,不保存)--客户端
    C# DateTime 日期加1天 减一天 加一月 减一月 等方法(转)
    ASP.NET jquery ajax传递参数
  • 原文地址:https://www.cnblogs.com/scrat/p/2595372.html
Copyright © 2011-2022 走看看