zoukankan      html  css  js  c++  java
  • python使用带汉字的正则表达式

    #!/usr/bin/python
      2 # -*- coding: cp936 -*- 
      3 import sys;
      4 import re;
      5 '''
      6 原始文件,去重后文件,重复文件
      7 '''
      8 if( __name__ == "__main__" ):
      1 #!/usr/bin/python
      2 # -*- coding: cp936 -*- 
      3 import sys;
      4 import re;
      5 '''
      6 原始文件,去重后文件,重复文件
      7 '''
      8 if( __name__ == "__main__" ):
      9     fid_input = file(str(sys.argv[1]),'r');
     10     fid_pure=file(str(sys.argv[2]),'w');
     11     fid_assist=file(str(sys.argv[3]),'w');
     12     mydict={};
     13     phanzi=re.compile(u'[\u4e00-\u9fa5]');
     14     preturn=re.compile(u'(^\s+|\s+$)');#去掉首尾空白
     15     pfilter=re.compile(u'[”“(\(\))]');#去掉无关字符
     16     for line in fid_input:
     17         uline=unicode(line,'gbk');
     18         candidates=phanzi.findall(uline);
     19         unewline=u'';
     20         for m in candidates:
     21             unewline=unewline+m;
     22         unewline=pfilter.sub('',unewline);
     23         unewline=preturn.sub('',unewline);
     24         newline=unewline.encode('gbk');
     25         fid_assist.write(newline);
     26         fid_assist.write('\n');
     27         if(not mydict.has_key(newline)):
     28             mydict[newline]=1;
     29     for mykey in mydict.keys():
     30         fid_pure.write(mykey);
     31         fid_pure.write('\n');
     32     fid_pure.close();
     33     fid_input.close();
     34     fid_assist.close();
     35     print 'procedure %s finish!\n'%str( sys.argv[0] );
  • 相关阅读:
    js的解析顺序 作用域 严格模式
    弹性盒模型----容器属性
    tomcat解压版的配置与使用
    将mysql中一行中的几个字段 转换成一列并从其他数据库中查对应的邮件信息
    电脑快捷键
    icell更改用户管理员
    kettle下载地址
    pycharm激活码
    leetcode-111. 二叉树最小深度 · Tree + 递归
    leetcode-102.层序遍历二叉树(正序)· BTree
  • 原文地址:https://www.cnblogs.com/finallyliuyu/p/2396702.html
Copyright © 2011-2022 走看看