zoukankan html css js c++ java

爬虫图片

import urllib.request
import re
import os


def getHtml(url):
    page = urllib.request.urlopen(url)
    html = page.read()
    return html


def getImg(html):
    imglist = re.findall('img src="(http.*?)"', html)
 # 1 #http.*?表示非贪婪模式的匹配，只要符合http就匹配完成，不再看后面的内容是否匹配，即在能使整个匹配成功的前提下，使用最少的重复
    return imglist


html = getHtml("https://www.zhihu.com/question/39731953").decode("utf-8")
imagesUrl = getImg(html)

if os.path.exists("E:/imags") == False:
    os.mkdir("E:/imags")

count = 0  # 文件的起始名称为 0
for url in imagesUrl:
    print(url)
    if (url.find('.') != -1):  # 2
        name = url[url.find('.', len(url) - 5):]
        bytes = urllib.request.urlopen(url)
        f = open("E:/imags/" + str(count) + name, 'wb')# 代开一个文件，准备以二进制写入文件
        f.write(bytes.read()) # write并不是直接将数据写入文件，而是先写入内存中特定的缓冲区
        f.flush() # 将缓冲区的数据立即写入缓冲区，并清空缓冲区
        f.close() # 关闭文件
        count += 1

查看全文

相关阅读:
【Rust】多种错误类型
 【Rust】Result别名
 【Rust】Option然后
 【Rust】可选和错误
 【Rust】Result问号
 【Rust】Option转换
 【Rust】Option展开
 【Rust】Result结果
 【Rust】Result提前返回
 jQuery过滤安静点

原文地址：https://www.cnblogs.com/1510152012huang/p/8646452.html

最新文章
Servlet基础
 装饰模式——java实现
 今日收获
 今日收获
 今日收获
 今日收获
 今日收获
 今日收获
 阅读笔记《梦断代码》
8.文件操作

热门文章
面向对象
 4.运算符和流程控制
 6.函数
 继承
 7.数组和正则
 3.php数据类型
 多态
 5.循环
 封装
 【Rust】Result转换