zoukankan      html  css  js  c++  java
  • 【Python】第一个爬虫

     1 import urllib.request
     2 import re
     3 
     4 class DownPic:
     5 
     6     def __init__(self,url,re_str):
     7         self.url = url
     8         self.re_str = re_str
     9 
    10     def getHtml(self,url):
    11         page = urllib.request.urlopen(url)
    12         html = page.read()
    13         return str(html)
    14 
    15     def downloadPic(self):
    16         imgre = re.compile(self.re_str) #构造正则
    17         html = self.getHtml(self.url) #读取界面
    18         imglist = re.findall(imgre,html)
    19         x = 0
    20         for imgurl in imglist:
    21             print(imgurl)
    22             try:
    23                 urllib.request.urlretrieve(imgurl,"../data/%s.jpg" % x) # 将图片取到本地
    24             except:
    25                 print("error")
    26             x += 1

    上面是一个类,传入两个参数,一个是网页,一个是要匹配的图片的地址

    下面是调用:

    1 from downpic import DownPic
    2 
    3 downPic = DownPic("http://tieba.baidu.com/p/2460150866",r'src="(https://imgsa.baidu.com.+?.jpg)" pic_ext')
    4 
    5 downPic.downloadPic()
    6 print("over")

    从上面可以看到,一个简单爬虫的基本步骤是:
    1、读取界面的HTML

    2、用正则去获取到目标链接

    3、下载

  • 相关阅读:
    JS/JQuery下拉列表选中项的索引
    数据挖掘
    Sencha安装
    新的开始
    jquery multi scrollable 同步的问题
    dom4j
    rest
    spring 2
    spring framework3.0开发
    笔记Spring in action
  • 原文地址:https://www.cnblogs.com/yanyojun/p/9310555.html
Copyright © 2011-2022 走看看