zoukankan      html  css  js  c++  java
  • 利用正则表达式分离汉字、英文、数字

    在中文分词的过程中需要将英文,数字,汉字分离,数字和英文就不用分割了,主要是将分离出来的汉字进行分词,下面的算法实现利用正则表达式分离汉字、英文、数字:

    //获取中文
    string chRegS = @"[\u4e00-\u9fa5]+";
    Regex chRegR = new Regex(chRegS);
    Match chMacth = chRegR.Match(str);
    while(chMacth.Success)
    {
         CHresult.Add(chMacth.ToString());
         chMacth = chMacth.NextMatch();
    }
    //英文
    string enRegS = @"[a-zA-Z]+";
    Regex enRegR = new Regex(enRegS);
    Match enMatch = enRegR.Match(str);
    while (enMatch.Success)
    {
         Enresult.Add(enMatch.ToString());
         enMatch = enMatch.NextMatch();
    }
    //数字
    string numRegS = @"\d+";
    Regex numRegR = new Regex(numRegS);
    Match numMatch = numRegR.Match(str);
    while (numMatch.Success)
    {
         Numresult.Add(numMatch.ToString());
         numMatch = numMatch.NextMatch();
    }

    测试字符串:“可复用的WPF或者Silverlight应用程序和组件设计(3)——控件级别”

    结果:

  • 相关阅读:
    [CodeForces
    [CodeChef]RIN(最小割)
    [Bzoj3894]文理分科(最小割)
    [Poj3469]Dual Core CPU(最小割)
    MySQL- 锁(3)
    MySQL- 锁(1)
    MySQL- 锁(2)
    MySQL-中文全文检索
    Solr
    多线程编程-之并发编程:同步容器
  • 原文地址:https://www.cnblogs.com/lijingpeng/p/2466981.html
Copyright © 2011-2022 走看看