zoukankan      html  css  js  c++  java
  • 制作数据集(一)

    这种类型数据集制作:

    思路:读取地址,使用字典形式保存(但是字典有去重功能,比如说烟台大学工学院宿舍,会出现两个 "学"字,字典会去掉前面的键,可以用列表存储,即可解决)

    def main():
        with open('./data.txt', 'r', encoding='utf8')as f:   # 打开数据   数据是一行一行的字符串
            data_1 = f.readlines()                           # 按行读取   data_1    即 '西安镇洼边子村'
            for s in data_1:                           
                dict_1 = {}
                for i in s:
                    if(i == '' or i == '' or i== '' or i == '' or i== '' or i == ''):
                        dict_1[i] = 'E5'
                    else:
                        dict_1[i] = 'o'      # {'西': 'o', '安': 'o', '镇': 'o', '洼': 'o', '边': 'o', '子': 'o', '村': 'E5'}
    
                if('"' in dict_1.keys()):
                    dict_1.pop('"')
                if('	' in dict_1.keys()):
                    dict_1.pop('	')
                if ('
    ' in dict_1.keys()):
                    dict_1.pop('
    ')
                if(dict_1 == {}):
                    continue
                with open('./data_1.txt', 'a', encoding='utf8')as fp:  
                    for item in dict_1.items():   # item 为元组
                        fp.write('  '.join(j for j in item)+ '
    ')   # 连接元组  得到需要的格式
                    fp.write('
    ')   # Windows下  '
    '
    
    if __name__ == '__main__':
        main()
  • 相关阅读:
    huffman压缩解压文件
    C++ fstream 详解
    huffman编码
    ios cocoapods
    POI2Vec: Geographical Latent Representation for Predicting Future Visitors
    latex生成pdf 出现missing$ inserted
    矩阵、向量求导法则

    矩阵范数求导
    hive
  • 原文地址:https://www.cnblogs.com/yu121/p/13214068.html
Copyright © 2011-2022 走看看