zoukankan      html  css  js  c++  java
  • 【开卷故意】JAVA正則表達式模版

    专业既然是机器学习。那工作肯定也是继续和数据打交道,那么问题来了,非常多时候推荐算法和数据挖掘算法都是现成可用的,平台初建,重点还在数据过滤和抽取。如何高效的抽取数据?


    利用往常算法比赛中经常使用的字符串处理方法吗,omg,维护它是一个淡淡疼的忧伤。


    那么,重点来了。正則表達式,干净利落。


    模版例如以下:


    //step1,set reg string
    String regStr = "^helloworld"
    //step2,set Pattern
    Pattern regPattern = Pattern.compile(regStr );
    //step3,set Matcher
    Matcher regMatcher = regPattern.matcher(srcText);
    //step4,display what you found from this pattern
    if(regMatcher.find()){
        System.out.print(regMatcher.group());
    }


    当然,首先你得会写正則表達式。记住,能分组就分组。特征相关数据提取会非常顺利。


    模版非常easy。正则抽取的正則表達式是重点。


    那么,多次匹配怎么办。谨记,正则抽取是树形结构。用for循环。你就输了。


    解决方式:状态机。甚至,你能够用回调函数(callable接口)来做这件事


    这属于后话。码字累了,今天主要是开卷。





  • 相关阅读:
    后台执行linux命令
    日志
    配置文件
    后台
    后台代码注释
    递归建立文件夹
    图片合成
    java.awt.Font
    java-日期取特定值
    linux乱码
  • 原文地址:https://www.cnblogs.com/gcczhongduan/p/5147795.html
Copyright © 2011-2022 走看看