zoukankan      html  css  js  c++  java
  • python文件操作-1.将PDF转成Excel

    # https://www.jianshu.com/p/f33233e4c712
    import pdfplumber  # 为了操作PDF
    from openpyxl import Workbook
    wb = Workbook()  # 创建文件对象
    ws = wb.active  # 获取第一个sheet
    path="C:/Users/Lenovo/Desktop/中国建筑集团2020届校园招聘需求名录.pdf"
    pdf = pdfplumber.open(path)
    print('
    ')
    print('开始读取数据')
    print('
    ')
    print(pdf.pages[1].extract_tables()[0][0])
    ws.append(pdf.pages[1].extract_tables()[0][0])
    for page in pdf.pages:
        # 获取当前页面的全部文本信息,包括表格中的文字
        # print(page.extract_text())
        for table in page.extract_tables():
            # print(table)
            for row in table:
                if "序号" not in row:
                    # print(type(row))
                    rowlist=str(row).replace("[","",).replace("]","").replace("'","").replace("\n","").split(",")
                    print(rowlist)
                    ws.append(rowlist)
            print('---------- 分割线 ----------')
    pdf.close()
    # 保存Excel表
    wb.save('中国建筑集团2020届校园招聘需求名录.xlsx')
    print('
    ')
    print('写入excel成功')
    print('保存位置:')
    print('中国建筑集团2020届校园招聘需求名录.xlsx')
    print('
    ')
  • 相关阅读:
    MySQL数据库基础
    Django框架
    Python基础
    C#
    小功能
    数据结构与算法
    C语言
    Robot Framework高级
    Robot Framework初级
    C++基础
  • 原文地址:https://www.cnblogs.com/wang102030/p/11602166.html
Copyright © 2011-2022 走看看