zoukankan      html  css  js  c++  java
  • 爬虫--用python中requests和urllib模块爬取图片

    今天突发奇想小试爬虫,获取一下某素材站一些图片

    实现步骤如下:

    import re
    import requests
    from urllib import request
    import os
    
    # 1.首先要检查数据是否是动态加载出来的
    # 2.获取页面源码数据
    if not os.path.exists('tupian'):
        os.mkdir('tupian')
    headers = {
       "User-Agent" : "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36"
    }
    url = "http://sc.chinaz.com/tupian/bingxueshijie.html"
    page = requests.get(url=url, headers=headers) 
    page.encoding='utf8'  # 先解决乱码问题
    page_text=page.text  # .text拿到html文本
    
    ex = '<div class="box picblock col3".*?src2="(.*?)".*?</p>.*?</div>'  
    img_url_list = re.findall(ex, page_text, re.S)  # 正则匹配
    
    for img_url in img_url_list:
        img_path = 'tupian/' + img_url.split("/")[-1]  # 本地存放的文件路径
        
        request.urlretrieve(url=img_url, filename=img_path)
        print(img_path , "获取成功")

    结果:

    tupian/bpic9987_s.jpg 获取成功
    tupian/bpic9944_s.jpg 获取成功
    tupian/zzpic15470_s.jpg 获取成功
    tupian/hpic428_s.jpg 获取成功
    ...
    # 还有一大推就不罗列了

    期间遇到一点小坑, 此网站非常的鸡贼, 在网页点检查看到的前端代码并不是真正请求获得的, 而是请求发过去后前端对一些细节做了处理, 所以写正则匹配那一部分的时候不能参照网页检查现实的html

    解决办法就是先发请求获得真正请求得到的html文本, 即page_text=page.text   .text拿到html文本, 参照真正请求获得的文本写正则,  如此即可

    还有一个小坑就是乱码问题, page.encoding='utf8' 即可解决

     

  • 相关阅读:
    分治fft
    DSU on tree
    最小矩形覆盖
    用gallery展示图片,实现中间图片稍大,两边较小的效果
    动态刷新listview中的数据
    比较两个文件是否一样
    安卓巴士Android开发神贴整理
    Failed to register input channel. Check logs for details.
    解决scrollview嵌套ImageView时,出现除顶部和底部黑块的问题
    获取系统图片,并放入ImageList
  • 原文地址:https://www.cnblogs.com/babyjoy/p/10235912.html
Copyright © 2011-2022 走看看