zoukankan      html  css  js  c++  java
  • 记一次Python爬虫入门

    今天刚装好python环境,想要练练手。找了网上的教程敲了一个简单的爬虫代码,下载lofter的图片。

    程序思路

    (1)锁定目标网站
    (2)提取HTML页面代码
    (3)findall查找图片url
    (4)保存图片

    程序步骤

    (1)确定目标网站
    在这里插入图片描述

    (2)分析该网页的代码
    在这里插入图片描述
    (3)findall查找出所有图片的url,保存到list中
    (4)遍历list,保存到本地
    在这里插入图片描述

    程序源码

    """请求网页"""
    import time
    import requests
    import re
    import os
    """请求头部"""
    headers = {
        'User-Agent' : 'lofter'
    }
    response = requests.get('https://xxx.com/',headers=headers)
    html = response.text
    """解析网页"""
    # 提取网页名,用于图片保存的文件夹名
    dir_name = re.findall('<a class="f-trans" hidefocus="true" href="/">(.*?)</a>',html)[-1]
    if not os.path.exists(dir_name):
        os.mkdir(dir_name)
    # 提取所有图片的url
    urls = re.findall('<img src="(.*?)" />',html)
    print(urls)
    """保存图片"""
    for i in range(len(urls)):
    	# 延迟
        time.sleep(1)
        # 图片的名字
        file_name = str(i)
        response = requests.get(urls[i], headers=headers)
        with open(dir_name + '/' + file_name + '.jpg','wb') as f:
            f.write(response.content)
    
  • 相关阅读:
    块级作用域
    作用域变量 var
    unkown类型
    generator (2)
    generator (1)
    generator
    索引类型
    XML 特殊字符处理和 CDATA
    15 个实用的 PHP 正则表达式
    论MySQL数据库中两种数据引擎的差别
  • 原文地址:https://www.cnblogs.com/does/p/13621480.html
Copyright © 2011-2022 走看看