zoukankan      html  css  js  c++  java
  • 免二次请求,selenium直接保存图片元素到本地

    Selenium是不少爬虫工程师都会用的一个工具,它对页面元素的属性,文本等的提取都做的不错,但有一个缺点是只能获取到img元素的链接而不是图片二进制(即便在访问时已经加载过了一次图片)。想把指定的img保存到本地,只能使用获取的链接手动下载,不仅多花费了不少时间,而且在某些限制外链的站点还可能遇到下载失败的情况。本文介绍一个直接在selenium中保存图片的方法。

    原理其实有点取巧,是通过selenium的execute_script方法,注入一段脚本令网页所有img都转换为base64格式,如此一来图片的二进制信息就被编码为base64写在了<img>的src属性中。代码如下

    js = """
            _fetch = function(i,src){
              return fetch(src).then(function(response) {
                if(!response.ok) throw new Error("No image in the response");
                var headers = response.headers;
                var ct = headers.get('Content-Type');
                var contentType = 'image/png';
                if(ct !== null){
                  contentType = ct.split(';')[0];
                }
                
                return response.blob().then(function(blob){
                  return {
                    'blob': blob,
                    'mime': contentType,
                    'i':i,
                  };
                });
              });
            };
            
            _read = function(response){
              return new Promise(function(resolve, reject){
                var blob = new Blob([response.blob], {type : response.mime});
                var reader = new FileReader();
                reader.onload = function(e){
                  resolve({'data':e.target.result, 'i':response.i});
                };
                reader.onerror = reject;
                reader.readAsDataURL(blob);
              });
            };
            
            _replace = function(){
                for (var i = 0, len = q.length; i < len; i++) {imgs[q[i].item].src = q[i].data;}
            }
            
            var q = [];
            var imgs = document.querySelectorAll('img');
            for (var i = 0, len = imgs.length; i < len; i++) {
                    _fetch(i,imgs[i].src).then(_read).then(function(data){
                q.push({
                  'data': data.data,
                  'item': data.i,
                });
              });
                }
            setTimeout(_replace, 1000 );
            """
    driver.execute_script(js)

    fetch方法请求图片时浏览器会自动读取本地缓存,所以不会发生网络通讯;_replace延迟1秒执行是为了等待队列加载完成。

    在driver.get(URL)后执行此脚本,源代码中所有<img>即变为base64编码。再附上一段Python的base64转文件脚本

    imgsrc = ""
    
    import base64
    def base64img2file(imgsrc: str):
        suffix = imgsrc.split(';')[0][11:]
        with open("demo."+suffix, 'wb') as f:
            f.write(base64.b64decode(imgsrc.split(',')[1]))
  • 相关阅读:
    Codeforces Round #383 D
    [HNOI2010]弹飞绵羊
    多项式幂函数(加强版)
    「ZJOI2015」地震后的幻想乡
    [AHOI2013]作业
    MVC3+EF4.1学习系列(九)-----EF4.1其他的一些技巧的使用
    MVC3+EF4.1学习系列(八)-----利用Repository and Unit of Work重构项目
    MVC3+EF4.1学习系列(七)-----EF并发的处理
    MVC3+EF4.1学习系列(六)-----导航属性数据更新的处理
    MVC3+EF4.1学习系列(五)----- EF查找导航属性的几种方式
  • 原文地址:https://www.cnblogs.com/qjfoidnh/p/14118247.html
Copyright © 2011-2022 走看看