zoukankan html css js c++ java

Python 2.7和3.6爬取妹子图网站单页测试图片

1、url= http://www.mzitu.com/74100/x，2为1到23的值

2、用到模块 os 创建文件目录; re模块正则匹配目录名图片下载地址; time模块限制下载时间;requests模块获取网页源代码;urllib模块 urllib.urlretrieve(图片url,保存的带扩展名的文件名x.jpg)方法下载图片

3、知识点文件目录处理函数封装调用全局变量

4、代码

# -*- coding:utf8 -*-
import os
import re
import requests as rq
import urllib
import time


# 创建目录函数 保存文件位置
def create_catename():
    # 取出网页的上层目录名称
    url = urls[0]
    html = rq.get(url).text
    cate_name = re.findall(r'<a href="http://www.mzitu.com/xinggan" rel="category tag">(.*?)</a>', html)[0]
    path = 'D:\%s' % cate_name
    return path


# 下载图片 定义n为全局变量 以n计数为图片的文件名n.jpg  定义n全面变量 以免for循环时候上次循环n的值被重新赋值
def getimg():
    global n
    n = 1
    for url in urls:
        html = rq.get(url).text
        regex = re.compile('<img src="(.*?.jpg)" alt=')
        img_url = re.findall(regex, html)[0]
        #urllib.urlretrieve(img_url, '%s.jpg' % n) ，此处为Python2.7 写法
        urllib.request.urlretrieve(img_url, '%s.jpg' % n) #prython3.6写法
        n += 1


# main函数 调用上面的两个函数  urls是个全局变量 取23张页面 下载23张图
def main():
    global urls
    urls = ['http://www.mzitu.com/74100/{}'.format(str(i)) for i in range(1, 24)]
    path = create_catename()
    # 创建文件目录
    os.mkdir(path)
    # 切换到该目录
    os.chdir(path)
    time.sleep(2)
    getimg()


main()

查看全文

相关阅读:
xml模块
 json&pickle&shelve
C#基础-关于用json给控制台程序传值的坑
 【MediaElement】WPF视频播放器【3】
【Treeview】遍历本地磁盘
 【WCF】WCF中的InstanceContext与ConcurrencyMode【转】
C#基础-FileStream实现多线程断点续传
 C#基础-FileStream
C#基础-out与ref字段
 【Visual Installer】如何提醒用户卸载旧版本软件

原文地址：https://www.cnblogs.com/yangwujun/p/6598619.html

最新文章
centos7安装maven
js判断字符串是否包含某个字符串
 Django
Django
Django组件
 Django组件
 Django组件
 Django
Django
Django的模型层（2）