zoukankan      html  css  js  c++  java
  • paip.数据挖掘导出词库 清理太长的iptcode

    paip.数据挖掘--导出词库 清理太长的iptcode

    原来eng2atian的时候儿,有些cnchar无对眼的atian,走临时使用nonex代替...

    而个,要不个那清理给挂了..

    #keyword
    python 文件读写rwrite  unicode

    #清理规则:长度大的9,  而且含有nonex


    作者 老哇的爪子 Attilax 艾龙,  EMAIL:1466519819@qq.com
    来源: http://blog.csdn.net/attilax

    #主要的算法如下

    x=r"c:\导出 - 主码 - 用户码表 o4dfix khjg.txt"
    #clrExportImCustmWordlibTolongIptcode.py
    tgt=r"c:\clrToLong.txt"
    from filex import *
    from pkg.strUtil import *
    list =file2list(x, "UTF-16");
    list_new=[]
    from log import *
    iniLog(r"c:\clrtolog.log")
    fileHandle = open ( tgt, 'w',encoding="UTF-16" )        
    for line in list:
        if(line.startswith("--")):continue;
        s=left_ByFirstChar(line,"#")
        a=s.split();#todox splitbyTab
        logging.info(a)
        output=a[0]
        iptcode=a[1]
        if(len(iptcode)>9 and isContain(iptcode,"nonex")):
            continue;
            #endif
        #list_new.append(line)
        fileHandle.write(line+"\r\n")
        #endfor
        
     
    #for line in     list_new:

        
    fileHandle.close()   
  • 相关阅读:
    angularjs中ng-repeat-start与ng-repeat-end用法实例
    随笔 javascript-抽象工厂模式
    VMware一些使用心得
    oracle 12c的数据库导进 11g
    架构师基本功:消息队列
    如何提高工作效率
    oracle 12c 13姨
    架构师基本功:SOA
    autofac如何注册静态方法里的接口对象
    发布Java桌面程序
  • 原文地址:https://www.cnblogs.com/attilax/p/15199256.html
Copyright © 2011-2022 走看看