这种类型数据集制作:
思路:读取地址,使用字典形式保存(但是字典有去重功能,比如说烟台大学工学院宿舍,会出现两个 "学"字,字典会去掉前面的键,可以用列表存储,即可解决)
def main(): with open('./data.txt', 'r', encoding='utf8')as f: # 打开数据 数据是一行一行的字符串 data_1 = f.readlines() # 按行读取 data_1 即 '西安镇洼边子村' for s in data_1: dict_1 = {} for i in s: if(i == '村' or i == '路' or i== '街' or i == '段' or i== '巷' or i == '屯'): dict_1[i] = 'E5' else: dict_1[i] = 'o' # {'西': 'o', '安': 'o', '镇': 'o', '洼': 'o', '边': 'o', '子': 'o', '村': 'E5'} if('"' in dict_1.keys()): dict_1.pop('"') if(' ' in dict_1.keys()): dict_1.pop(' ') if (' ' in dict_1.keys()): dict_1.pop(' ') if(dict_1 == {}): continue with open('./data_1.txt', 'a', encoding='utf8')as fp: for item in dict_1.items(): # item 为元组 fp.write(' '.join(j for j in item)+ ' ') # 连接元组 得到需要的格式 fp.write(' ') # Windows下 ' ' if __name__ == '__main__': main()