如有一文件,需要提取出每行内的汉字,剔除每行的制表符( )、换行符( )及数字后存到一个列表内。
import re data = [] #打开文件 with open('data_vocab.json','r',encoding='utf-8') as f: #for 遍历文件,每行读取出为一个字符串i,如:0 啊哈哈 12345 for i in f.readlines(): #方法一:使用正则方法,取消掉0-9数字,取消掉制表符( ),取消掉换行符( ),生成新的字符串new_str new_str = re.sub("[0-9 ]", "", i) #方法二:属于笨办法,在不使用正则的情况下,把不需要的字符全部替换为"",生成新的字符串new_str # new_str = i.replace(' ','').replace(' ','').replace('1','').replace('2','').replace('3','').replace('4','') # .replace('5','').replace('6','').replace('7','').replace('8','').replace('9','').replace('0','') data.append(new_str) print(data)