zoukankan      html  css  js  c++  java
  • Python爬虫学习(1)

    接触python不久,也在慕课网学习了一些python相关基础,对于爬虫初步认为是依靠一系列正则获取目标内容数据

    于是参照着慕课网上的教学视频,完成了我的第一个python爬虫,鸡冻 >_<

    # !/usr/bin/env python
    # -*- coding: UTF-8 -*-
    # addUser: Gao
    # addTime: 2018-01-27 23:06
    # description: python爬虫练习
    
    import urllib2, re, os
    
    # 获取目标网址
    TargetUrl = 'https://www.imooc.com/course/list'
    
    # 获取数据保存路径
    FileName = 'Download'
    
    """
    保存图片
    """
    def saveImg(imgUrl, imgName='img.jpg'):
        # 图片路径
        imgPath = os.path.join(FileName, imgName)
    
        # 获取路径下图片信息
        req = urllib2.urlopen(imgUrl)
        buf = req.read()
    
        # 写入文件
        with open(imgPath, 'wb+') as f:
            f.write(buf)
    
    
    """
    判断文件夹是否存在
    """
    if not os.path.exists(os.path.join(os.getcwd(), FileName)):
        # 新建文件夹
        os.mkdir(os.path.join(os.getcwd(), FileName))
    
    
    # 获取目标网址内容
    result = urllib2.urlopen(TargetUrl)
    urlData = result.read()
    
    # 正则匹配获取图片地址
    imgList = re.findall(r'src="(.+?.jpg)', urlData)
    
    """
    循环保存图片
    """
    i = 0
    for imgUrl in imgList:
        saveImg('https:'+imgUrl, 'python_'+str(i)+'.jpg')
        i += 1
    

      

  • 相关阅读:
    Andrew Ng
    Matlab 常用语法速记 1
    jQuery 中的常用函数
    JS 删除数组中指定的某个元素的方法
    layer 插件 在子页面关闭自身的方法
    U方法
    读取配置和动态配置(C方法)
    TP框架控制器和对应方法创建
    ThinkPHP基础(1)
    利用ThinkPHP做项目步骤
  • 原文地址:https://www.cnblogs.com/MrGaoyi/p/8368384.html
Copyright © 2011-2022 走看看