Python -处理PDF - 走看看

zoukankan html css js c++ java

Python -处理PDF

处理pdf文档

第一、

从文本中提取文本

第二、

创建PDF

两种方法

#使用PdfFileWriter

import PyPDF2

pdfFiles = []

for filename in os.listdir('.'):

if filename.endswith('.pdf'):

pdfFiles.append(filename)

print(pdfFiles)

pdfWriter = PyPDF2.PdfFileWriter()

pdfFileObj = open(pdfFiles[0],'rb')

pdfReader = PyPDF2.PdfFileReader(pdfFileObj) # 得到PdfFileReader对象

first,end =map(int,input('从多少页到多少页(用空格隔开):').split())

for pageNum in range(first-1,end):

pageObj = pdfReader.getPage(pageNum)

pdfWriter.addPage(pageObj)

pdfOutput = open ('split_pdf.pdf','wb')

pdfWriter.write(pdfOutput)

pdfOutput.close()

#使用PdfFileMerger()

import PyPDF2

merger = PyPDF2.PdfFileMerger()

a = [str(i)+'webbook.pdf'for i in range(0,124)]

for i in a:

print(i)

merger.append(open(i,'rb'))

print("合并完成第"+str(i))

with open('combintion.pdf','wb') as f:

merger.write(f)

pdfkit 使用教程

http://blog.csdn.net/shenwanjiang111/article/details/68925569

查看全文

相关阅读:
上传gdb文件地理数据库所有图层到企业级空间库
 导出所有图层到gdb文件地理数据库
 sparkSQL报错org.apache.spark.sql.AnalysisException: Unable to generate an encoder for inner class `cn.itcast.spark.sql.Intro$People` without access to the scope that this class was defined in.
java开发环境搭建
 qw
SSM集成支付宝
 三次握手，四次挥手
 ASP.NET Core中的依赖注入#
char是Java原始类型。char变量可以存储一个Unicode字符
 JAVA教程

原文地址：https://www.cnblogs.com/powercai/p/7787426.html

Copyright © 2011-2022 走看看