zoukankan      html  css  js  c++  java
  • python爬取图片遇见src乱码: data:image/png;base64

      python爬取图片遇见src乱码: data:image/png;base64

      向爬取自己喜欢的图片,但是在爬取下来的代码当中图片的src会出现乱码的情况:data:image/png;base64。搞了我好长时间,试过伪装headers,也试过通过修改网页js的内容来让img的src显示出来,也试过修改div的display属性,但是全部都没用,最后了解了才知道,这是Data URI scheme。

    一:Data URI scheme:

      目的是将一些小的数据,直接嵌入到网页中,从而不用再从外部文件载入。比如上面那串字符,其实是一张小图片,将这些字符复制黏贴到火狐的地址栏中并转到,就能看到它了,一张1X36的白灰png图片

      数据分类:data表示取得数据的协定名称,image/png 是数据类型名称,base64 是数据的编码方法,逗号后面就是这个image/png文件base64编码后的数据

      这样写的好处(对我这种萌新来说简直灾难):图像文件的内容直接写在了HTML 文件中,节省了一个HTTP 请求。

    二:使用python爬取解决的方法

      解决思路:

        它就是普通的 <img src="...." /> 属性值。使用你的能够解析 html 的解析器,找到 image element,取得它的 src 属性值,将base64 格式的字符串转为 byte[ ],然后放到 MemoryStream 中供 Image 控件读取,画出图片。(如果只是输出,得到 byte[ ] 数据结构即可)

      举例:

    string txt = @"";
    
    var tmpArr = txt.Split(',');
    
    byte[] bytes = Convert.FromBase64String(tmpArr[1]);
    
    using (MemoryStream ms = new MemoryStream(bytes))
    
    {
    
        ms.Write(bytes, 0, bytes.Length);
    
        var img = Image.FromStream(ms, true);
    
        img.Save("demo.png");
    
    }

      爬取图片的时候,使用python中的bs64来编码Data URI:

        # 使用BeautifulSoup来获取对应的标签的属性值:使用点get,里面再加一个属性值的字符串就好了,ok
        strings=str(bs.find(name="img",attrs={"class":"comicimg"}).get('src'))
    
        #解码bs64格式的Data URI
        '''
            1.pip导入base64的包,这个不用pip下载,pycharm自带
            2.将src的前面编码方式和后面的码分离出来,两者使用逗号相连,而且只有一个
            3.使用b64decode编码器编译,并储存到字符节数组data里面
            4.将其字符集写入文件当中,就会生成所需要的文件(为什么导出来的图片是白板??)
        '''
        head1,encode=strings.split(',',1)
        data=b64decode(encode)
        with open("image_src.png","wb") as f:
            f.write(data)
            f.close()

      注意:本人暂时还没有成功。。。。。。待续。。。

  • 相关阅读:
    vs编译在win xp电脑上运行的win32程序遇到的问题记录(无法定位程序输入点GetTickCount64于动态链接库KERNEL32.dll)
    (转载)用VS2012或VS2013在win7下编写的程序在XP下运行就出现“不是有效的win32应用程序“
    记录编译方面的问题(重定义)
    记录一个问题:win32程序release版本和debug版本运行效果不同
    C++复制、压缩文件夹
    foreach 和 list.foreach 初步测试
    转载字典地址:http://blog.csdn.net/aladdinty/article/details/3591789
    WindowsApi 解压缩文件
    23种简洁好看的扁平化模板
    Session为null 问题
  • 原文地址:https://www.cnblogs.com/instead-everyone/p/13793512.html
Copyright © 2011-2022 走看看