zoukankan      html  css  js  c++  java
  • Python 简单网页爬虫学习

     1 #coding=utf-8
     2 
     3 # 参考文章:
     4 #   1. python实现简单爬虫功能
     5 #       http://www.cnblogs.com/fnng/p/3576154.html
     6 #   2. Python 2.7 时间和日期模块常用的例子
     7 #       http://www.linuxidc.com/Linux/2015-06/118458.htm
     8 #   3. Python open读写文件实现脚本
     9 #       http://www.jb51.net/article/15709.htm
    10 #   4. python re 模块 findall 函数用法简述
    11 #       http://blog.csdn.net/cashey1991/article/details/8875213
    12 #   5. [Python]编码声明:是coding:utf-8还是coding=urf-8呢
    13 #       http://www.xuebuyuan.com/975181.html
    14 
    15 
    16 # urllib模块提供的上层接口,使我们可以像读取本地文件一样读取www和ftp上的数据。
    17 import urllib
    18 import re
    19 import datetime,time
    20 
    21 # 定义了一个getHtml()函数
    22 def getHtml( url ):
    23     # urllib.urlopen()方法用于打开一个URL地址。
    24     page = urllib.urlopen( url )
    25     # read()方法用于读取URL上的数据
    26     html = page.read()
    27 
    28     # 返回整个网页数据
    29     return html
    30 
    31 # 创建getImg()函数
    32 def getImg( html ):
    33     # ()表示所要提取的字符串,即: 图片名.jpg
    34     reg = r'src="(.+?.jpg)" pic_ext'
    35     # 可以把正则表达式编译成一个正则表达式对象.
    36     imgre = re.compile( reg )
    37     # 读取html 中包含 imgre(正则表达式)的数据。
    38     # 当给出的正则表达式中带有一个括号时,列表的元素为字符串,
    39     # 此字符串的内容与括号中的正则表达式相对应(不是整个正则表达式的匹配内容)。
    40     imglist = re.findall( imgre, html )
    41 
    42     print "Start downloading the first five pictures"
    43 
    44     # 通过一个for循环对获取的图片连接进行遍历,为了使图片的文件名看上去更规范,
    45     # 对其进行重命名,命名规则通过x变量加1。保存的位置默认为程序的存放目录。
    46     x = 0
    47     for imgurl in imglist:
    48         # 用到了urllib.urlretrieve()方法,直接将远程数据下载到本地
    49         urllib.urlretrieve( imgurl, '%s.jpg' % x )
    50         # python不支持类似 x++ 或 x-- 这样的前置/后置自增/自减运算符,因此只能用 += 或 -= 这种。
    51         x += 1
    52 
    53         # 这里面的图片可能比较多,我们测试前五张就差不多了
    54         if x == 5 :
    55             break
    56 
    57     print "the first five pictures download completed."
    58 
    59     return imglist
    60 
    61 # 向getHtml()函数传递一个网址,并把整个页面下载下来,保存在html变量中
    62 html = getHtml( "http://www.zengjf.org" )
    63 
    64 # 合成要保存的文件名,由年月日、时分秒组成,以只写方式打开文件
    65 saveFile = open( time.strftime( "%Y%m%d%H%M%S" ) + ".html", 'w' )
    66 saveFile.write( html )      # 将html中的内容写入文件
    67 saveFile.close( )           # 关闭文件
    68 
    69 html = getHtml( "http://tieba.baidu.com/p/2460150866" )
    70 print getImg( html )
  • 相关阅读:
    js语法中一些容易被忽略,但会造成严重后果的细节
    第三方技术方案大集合,收集一些好用、有意思的方法、网站
    jQuery的Promise 这里介绍的很详细
    获取当月|目标月最后一天
    bootstrap ui样例
    正则校验数字格式,并只能保留两个小数
    新建指定长度的数组,填入内容,内容都为固定值
    mobx 学习笔记
    (二)Android 基本控件
    (一)初识Android
  • 原文地址:https://www.cnblogs.com/zengjfgit/p/4863977.html
Copyright © 2011-2022 走看看