zoukankan      html  css  js  c++  java
  • Python -处理PDF

    处理pdf文档

    第一、

    从文本中提取文本

    第二、

    创建PDF

    两种方法

    #使用PdfFileWriter

    import PyPDF2

     

    pdfFiles = []

    for filename in os.listdir('.'):

    if filename.endswith('.pdf'):

    pdfFiles.append(filename)

    print(pdfFiles)

    pdfWriter = PyPDF2.PdfFileWriter()

     

    pdfFileObj = open(pdfFiles[0],'rb')

    pdfReader = PyPDF2.PdfFileReader(pdfFileObj) # 得到PdfFileReader对象

    first,end =map(int,input('从多少页到多少页(用空格隔开):').split())

    for pageNum in range(first-1,end):

    pageObj = pdfReader.getPage(pageNum)

    pdfWriter.addPage(pageObj)

    pdfOutput = open ('split_pdf.pdf','wb')

    pdfWriter.write(pdfOutput)

    pdfOutput.close()

    #使用PdfFileMerger()

    import PyPDF2

    merger = PyPDF2.PdfFileMerger()

    a = [str(i)+'webbook.pdf'for i in range(0,124)]

    for i in a:

    print(i)

    merger.append(open(i,'rb'))

    print("合并完成第"+str(i))

    with open('combintion.pdf','wb') as f:

    merger.write(f)

    pdfkit 使用教程

    http://blog.csdn.net/shenwanjiang111/article/details/68925569

  • 相关阅读:
    hdu 1301 Jungle Roads
    hdu 1233 还是畅通工程
    12.3日周二学习笔记
    12.2周一学习记录
    12.1周日学习记录
    浅表副本
    DL项目代码目录结构管理
    因子分析
    relu非线性映射函数,能拟合任意函数吗
    神经网络拟合连续函数
  • 原文地址:https://www.cnblogs.com/powercai/p/7787426.html
Copyright © 2011-2022 走看看