前几天遇见这么一个问题,手上有很多张表格,这些表格中都只有一个 sheet,需要把这些表汇总到一张表。
一张表中有多个 sheet,每一个 sheet 的名称是每张表格的文件名。
如果手动合并,往往需要花不少时间。如有 100 张表格的话,那样效率就太低了,于是弄了一个脚本来完成这个任务。
我找了一些测试数据,放在了 abc 文件夹下,abc 随便取的,只是一个保存数据的文件夹而已,在这个文件夹中只保存表格数据,其他的不要保存:
然后需要把这些表格数据合并为同一张表格,里面有多个 sheet,每一个 sheet 的数据为每一张表的数据且命名为原始数据表的名称。
脚本如下:
import pandas as pd import os result = pd.ExcelWriter('result.xlsx') #结果保存路径 origin_file_list = os.listdir(r'./abc') #获取表格路径 for i in origin_file_list: file_path = r'./abc/%s' % i #拼接文件路径 content = pd.read_excel(file_path) #读取文件内容 sheet_name = i[:len(i)-4] #获取文件名 content.to_excel(result, sheet_name, index=False) # 写入同一个表的不同sheet result.save()
上面的代码比较容易看懂,都有注释。先设置输出结果文件路径及名称,再获得数据源的所在的路径下的所有数据表的表名,循环读取每一个文件,设置 sheet 名字,设置为多个 sheet,最后保存。
运行后得到 result.xlsx 文件:
打开查看结果,可以看到有多个 sheet,且每一张 sheet 的名称都为原始数据表的名称:
到这里,这一个小需求就完成了。
注意:自己测试的时候,表格第一列第一行不能为空,否则会报错。