zoukankan      html  css  js  c++  java
  • 免二次请求,selenium直接保存图片元素到本地

    Selenium是不少爬虫工程师都会用的一个工具,它对页面元素的属性,文本等的提取都做的不错,但有一个缺点是只能获取到img元素的链接而不是图片二进制(即便在访问时已经加载过了一次图片)。想把指定的img保存到本地,只能使用获取的链接手动下载,不仅多花费了不少时间,而且在某些限制外链的站点还可能遇到下载失败的情况。本文介绍一个直接在selenium中保存图片的方法。

    原理其实有点取巧,是通过selenium的execute_script方法,注入一段脚本令网页所有img都转换为base64格式,如此一来图片的二进制信息就被编码为base64写在了<img>的src属性中。代码如下

    js = """
            _fetch = function(i,src){
              return fetch(src).then(function(response) {
                if(!response.ok) throw new Error("No image in the response");
                var headers = response.headers;
                var ct = headers.get('Content-Type');
                var contentType = 'image/png';
                if(ct !== null){
                  contentType = ct.split(';')[0];
                }
                
                return response.blob().then(function(blob){
                  return {
                    'blob': blob,
                    'mime': contentType,
                    'i':i,
                  };
                });
              });
            };
            
            _read = function(response){
              return new Promise(function(resolve, reject){
                var blob = new Blob([response.blob], {type : response.mime});
                var reader = new FileReader();
                reader.onload = function(e){
                  resolve({'data':e.target.result, 'i':response.i});
                };
                reader.onerror = reject;
                reader.readAsDataURL(blob);
              });
            };
            
            _replace = function(){
                for (var i = 0, len = q.length; i < len; i++) {imgs[q[i].item].src = q[i].data;}
            }
            
            var q = [];
            var imgs = document.querySelectorAll('img');
            for (var i = 0, len = imgs.length; i < len; i++) {
                    _fetch(i,imgs[i].src).then(_read).then(function(data){
                q.push({
                  'data': data.data,
                  'item': data.i,
                });
              });
                }
            setTimeout(_replace, 1000 );
            """
    driver.execute_script(js)

    fetch方法请求图片时浏览器会自动读取本地缓存,所以不会发生网络通讯;_replace延迟1秒执行是为了等待队列加载完成。

    在driver.get(URL)后执行此脚本,源代码中所有<img>即变为base64编码。再附上一段Python的base64转文件脚本

    imgsrc = ""
    
    import base64
    def base64img2file(imgsrc: str):
        suffix = imgsrc.split(';')[0][11:]
        with open("demo."+suffix, 'wb') as f:
            f.write(base64.b64decode(imgsrc.split(',')[1]))
  • 相关阅读:
    通过坐标比较来取代hitTest()
    用于判断数组是否完全包含另外的一个数组的所有元素
    flash中trace可显示正确的元件名称,可是程序无法控制该mc
    拿人多少薪水,就要承担多少的责任和压力
    影片剪辑的位置几种方法
    lite:最多支持12个键 ...
    为离我们远去的同胞默哀
    卡巴斯基6累积离线升级包的制作方法
    简单面试
    C#常用函数
  • 原文地址:https://www.cnblogs.com/qjfoidnh/p/14118247.html
Copyright © 2011-2022 走看看