zoukankan      html  css  js  c++  java
  • 【PyMuPDF和pdf2image】Python将PDF转成图片PNG和JPG

    前言:在最近的测试中遇到一个与PDF相关的测试需求,其中有一个过程是将PDF转换成图片,然后对图片进行测试。

    粗略的试了好几种方式,其中语言尝试了Python和Java,总体而言所找到的Python方式相对比Java更快一些,更简单一些。
    下面首先分享一下Python将PDF转换成图片,Java后续有时间在进行分享。

    需求:我需要先将PDF转换成为PNG图片,并截取图片的一部分存储,然后作为测试目标进行测试。
    操作:
    1、PDF转PNG图片
    2、对PNG图片进行指定区域截图,在另存到指定文件夹下
    针对截图此处所找到的方法如上一篇文章:Python图片裁剪的两种方式——Pillow和OpenCV

    1、PyMuPDF将PDF转换成图片

    pip install PyMuPDF

    import sys, fitz, os, datetime
    
    def pyMuPDF_fitz(pdfPath, imagePath):
        startTime_pdf2img = datetime.datetime.now()#开始时间
    
        print("imagePath="+imagePath)
        pdfDoc = fitz.open(pdfPath)
        for pg in range(pdfDoc.pageCount):
            page = pdfDoc[pg]
            rotate = int(0)
            # 每个尺寸的缩放系数为1.3,这将为我们生成分辨率提高2.6的图像。
            # 此处若是不做设置,默认图片大小为:792X612, dpi=96
            zoom_x = 1.33333333 #(1.33333333-->1056x816)   (2-->1584x1224)
            zoom_y = 1.33333333
            mat = fitz.Matrix(zoom_x, zoom_y).preRotate(rotate)
            pix = page.getPixmap(matrix=mat, alpha=False)
    
            if not os.path.exists(imagePath):#判断存放图片的文件夹是否存在
                os.makedirs(imagePath) # 若图片文件夹不存在就创建
    
            pix.writePNG(imagePath+'/'+'images_%s.png' % pg)#将图片写入指定的文件夹内
    
        endTime_pdf2img = datetime.datetime.now()#结束时间
        print('pdf2img时间=',(endTime_pdf2img - startTime_pdf2img).seconds)
    
    if __name__ == "__main__":
        pdfPath = '../path/demo.pdf'
        imagePath = '../path/image'
        pyMuPDF_fitz(pdfPath, imagePath)
    
     
    image.gif

    PDF文档页数超过100页的话需要十几秒,因为先转换成一整张1056X816的图片,再对本地文件中的所有图片进行遍历截图,时间上比较慢,通过查看文档发现:
    还可以在转换的同时指定图片的大小,对图片指定区域进行截取,这样快很多,一步到位,省去了二次截图的过程,前提使我们必须要知道想要截取哪一块区域并保存
    官方示例代码如下:

     
    image
    #下面的这段代码就是想要从一页PDF的中心点为起点截取到右下角的区域,截取整张图的1/4.
    >>> mat = fitz.Matrix(2, 2)                  # 在每个方向缩放因子2
    >>> rect = page.rect                         # 页面的矩形
    >>> mp = rect.tl + (rect.br - rect.tl) * 0.5 # 矩形的中心
    >>> clip = fitz.Rect(mp, rect.br)            # 我们想要的剪切区域
    >>> pix = page.getPixmap(matrix = mat, clip = clip)
    
    
     
    image.gif

    实际用到的例子是:
    整张图片导出之后是1056x816,但是我想要的是这张图片最底部的部分1056x75,相当于PDF文档的页脚部分。

    import sys, fitz, os, datetime
    
    def pyMuPDF_fitz(pdfPath, imagePath):
        startTime_pdf2img = datetime.datetime.now()#开始时间
    
        pdfDoc = fitz.open(pdfPath)
        for pg in range(pdfDoc.pageCount):
            page = pdfDoc[pg]
            rotate = int(0)
            # 每个尺寸的缩放系数为1.3,这将为我们生成分辨率提高2.6的图像。
            # 此处若是不做设置,默认图片大小为:792X612, dpi=96
            zoom_x = 1.33333333 #(1.33333333-->1056x816)   (2-->1584x1224)
            zoom_y = 1.33333333
            mat = fitz.Matrix(zoom_x, zoom_y).preRotate(rotate)
            pix = page.getPixmap(matrix=mat, alpha=False)
    
            if not os.path.exists(imagePath):#判断存放图片的文件夹是否存在
                os.makedirs(imagePath) # 若图片文件夹不存在就创建
    
            pix.writePNG(imagePath+'/'+'images_%s.png' % pg)#将图片写入指定的文件夹内
    
        endTime_pdf2img = datetime.datetime.now()#结束时间
        print('pdf2img时间=',(endTime_pdf2img - startTime_pdf2img).seconds)
    
    def pyMuPDF2_fitz(pdfPath, imagePath):
        pdfDoc = fitz.open(pdfPath) # open document
        for pg in range(pdfDoc.pageCount): # iterate through the pages
            page = pdfDoc[pg]
            rotate = int(0)
            # 每个尺寸的缩放系数为1.3,这将为我们生成分辨率提高2.6的图像
            # 此处若是不做设置,默认图片大小为:792X612, dpi=96
            zoom_x = 1.33333333 #(1.33333333-->1056x816)   (2-->1584x1224)
            zoom_y = 1.33333333
            # 缩放系数1.3在每个维度  .preRotate(rotate)是执行一个旋转
            mat = fitz.Matrix(zoom_x, zoom_y).preRotate(rotate) 
            rect = page.rect                         # 页面大小
            mp = rect.tl + (rect.bl - (0,75/zoom_x)) # 矩形区域    56=75/1.3333
            clip = fitz.Rect(mp, rect.br)            # 想要截取的区域
            pix = page.getPixmap(matrix=mat, alpha=False, clip=clip) # 将页面转换为图像
            if not os.path.exists(imagePath):
                os.makedirs(imagePath)
            pix.writePNG(imagePath+'/'+'psReport_%s.png' % pg)# store image as a PNG
    
    if __name__ == "__main__":
        pdfPath = '../path/demo.pdf'
        imagePath = '../path/image'
        #pyMuPDF_fitz(pdfPath, imagePath)#只是转换图片
        pyMuPDF2_fitz(pdfPath, imagePath)#指定想要的区域转换成图片
    
    

    当然上面这种是综合下来最快的,另外再介绍一种方法pdf2image



    作者:软测小生
    链接:https://www.jianshu.com/p/f57cc64b9f5e
    来源:简书
    著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
  • 相关阅读:
    ASP.NET Core 个人新闻项目
    C# 检查字符串中是否有HTML标签、返回过滤掉所有的HTML标签后的字符串
    VueCLI 页面加载进度条效果
    replace() 方法使用
    CentOS 7.9安装教程
    在Windows中安装MySQL
    linux安装consul
    jenkins Skywalking安装部署文档总结
    CentOS 7.x安装.NET运行时
    Apollo部署文档
  • 原文地址:https://www.cnblogs.com/weifeng1463/p/14964041.html
Copyright © 2011-2022 走看看