本文再次见证python是对付杂活的利器。不过,为什么这么多杂活呢?最近接到上级的任务,要在网络上收集一大批人图片,主页等信息,然后将这些信息填入到Excel表格。其中有一个令人发指地无聊的工作就是要将所有人的英文名写好整理好,由于都是中国人,因此,这工作也就是在考验我的汉语拼音水平。
于是,我想到了python。在网上找了一些信息,得出如下的思路:
1、汉字转拼音
github上有人实现好了,我只需用现成的。
2、操作excel
关于python操作excel,由于网上某些低质量博文的误导,多走了不少弯路。直到看到:
这样,剩下的问题就是写脚本了。
现在,excel的格式如下:
school_name | name_cn | name_en |
Tianjin University | 周天 | |
Tianjin University | 韩冬 | |
Tianjin University | 李兴 |
下面写脚本将name_en列填好,代码如下:
#!/usr/bin/python #-*-coding:utf-8-*- from pinyin import PinYin #module for excel handle import xlrd from xlutils.copy import copy def name_tran(str): test=PinYin() test.load_word() str[0] family=test.hanzi2pinyin(string=str[0])[0] last=u'' print str[1:] for word in test.hanzi2pinyin(string=str[1:]): last=last+word name_en=last.title()+u' '+family.title() return name_en def file_fill(file_name,sheet_name,row_count): #打开Excel文件读取数据 data = xlrd.open_workbook(file_name) #获取一个工作表 #table = data.sheets()[0]#通过索引顺序获取 #table = data.sheet_by_name(sheet_name)#通过名称获取 table = data.sheet_by_index(3) #通过索引顺序获取 #using xlutils to modify excel wb = copy(data) #通过get_sheet()获取的sheet,有write()方法 ws = wb.get_sheet(3) for i in range(1,row_count): name_cn=table.cell(i,1).value print name_cn try: name_en=name_tran(name_cn) ws.write(i,2,name_en) print name_en except: print i+1,"th row fail to translate." wb.save(file_name) return "Over!" if __name__=="__main__": file_fill(u"scholar&school.xls",u"Scholars",442)
代码运行之后,excel表的name_en列被填充,如下:
school_name | name_cn | name_en |
Tianjin University | 周天 | Tian Zhou |
Tianjin University | 韩冬 | Dong Han |
Tianjin University | 李兴 | Xing Li |