zoukankan      html  css  js  c++  java
  • 利用PyPDF2模块快速拆分PDF文档

    利用PyPDF2模块快速拆分PDF文档,

    自动查找py文件所在的目录里的pdf文件,并将拆分后的文件放到当前目录中。

    from PyPDF2 import PdfFileReader, PdfFileWriter
    import os
    
    pdf_dir=[]
    
    def get_filepath():
        docunames = os.listdir()
        for docuname in docunames:
            if os.path.splitext(docuname)[1] == '.pdf':
                pdf_dir.append(docuname)
    
    
    def current_path():
       current_path = os.path.abspath(__file__)
       return os.path.abspath(os.path.dirname(current_path) + os.path.sep + ".")
    
    
    # 将PDF文件每页分割为一个单独pdf的文件,并pdf保存至当前目录中
    def pdf_split_1(pdf_input, path_output):
        fname = os.path.splitext(os.path.basename(pdf_input))[0] # 获取pdf文件名,去掉后缀名
        pdf = PdfFileReader(pdf_input)
        
        for page in range(pdf.getNumPages()):
            pdf_writer = PdfFileWriter()
            pdf_writer.addPage(pdf.getPage(page))
            output_filename = path_output + r'{}-{}.pdf'.format(fname, page+1)
    
            with open(output_filename, 'wb') as out:
                pdf_writer.write(out)
                # print('生成文件:{}'.format(output_filename))
    
    
    if __name__ == "__main__":
        get_filepath()
        pdffile = os.path.join(current_path(),"".join(pdf_dir))
        pdf_split_1(pdffile, current_path())
  • 相关阅读:
    CSS之边界塌陷
    不用for loop循环一个读取一个文件
    CSS之毗邻选择器与普通兄弟选择器的区别
    python 一行代码
    Regex Golf 练习记录
    c实现双向链表
    c实现单向链表
    c++实现 String 类
    js获取指定小时日期格式化
    git clone Timed out 解决
  • 原文地址:https://www.cnblogs.com/ken-yu/p/14154216.html
Copyright © 2011-2022 走看看