一、认识正则表达式
正则表达式,(英语:Regular Expression,在代码中常简写为regex、regexp或RE),字符串处理利器,计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。在很多文本编辑器里,正则表达式通常被用来检索、替换那些符合某个模式的文本。
1、用途
正则表达式可以用于字符串匹配(字符匹配)、字符串查找、字符串替换,应用的具体场合如IP地址检查、从网页中揪出Email地址、从网页中揪出链接等。
2、Java类
- java.lang.Srtring
- java.util.regex.Pattern
- java.util.regex.Matcher
java.util.regex 包,用于匹配字符序列与正则表达式指定模式的类。
Pattern 类,正则表达式的编译表示形式,可以简单理解为字符串要被匹配的某个模式。
Matcher 类,匹配器,通过解释 Pattern 对 character sequence 执行匹配操作,简单理解为匹配之后产生的一个结果。
指定为字符串的正则表达式必须首先被编译为此类的实例。然后,可将得到的模式用于创建 Matcher
对象,依照正则表达式,该对象可以与任意字符序列匹配。执行匹配所涉及的所有状态都驻留在匹配器中,所以多个匹配器可以共享同一模式。
典型的调用顺序为:
Pattern p = Pattern.compile("a*b");
Matcher m = p.matcher("aaaab");
boolean b = m.matches();
在仅使用一次正则表达式时,可以方便地通过此类定义的 matches
方法。此方法编译表达式并在单个调用中将输入序列与其匹配。语句
boolean b = Pattern.matches("a*b", "aaaab");
或者使用 String 类的 matches 方法
boolean b = "aaaab".matches("a*b");
它们均等效于上面的三个语句,尽管对于重复的匹配而言它效率不高,因为它不允许重用已编译的模式。
Pattern 类常用方法:
static Pattern compile(String regex) //将给定的正则表达式编译到模式中 Matcher matcher(CharSequence input) //创建匹配给定输入与此模式的匹配器 static boolean matches(String regex, CharSequence input) //编译给定正则表达式并尝试将给定输入与其匹配。 String Pattern() //返回在其中编译过此模式的正则表达式。
3、匹配器
通过调用模式的 matcher
方法从模式创建匹配器,创建匹配器后,可以使用它执行三种不同的匹配操作:
- matches 方法尝试将整个输入序列与该模式匹配。
- LookingAt 方法尝试将输入序列从头开始与该模式匹配。
- find 方法扫描输入序列以查找与该模式匹配的下一个子序列。
matcher 方法和 find 方法在使用的过程中会相互影响,相当于一个游标在往下扫描子序列,可以使用匹配器的 reset 方法来使游标复位。
每个方法都返回一个表示成功或失败的布尔值,通过查询匹配器的状态可以获取关于成功匹配的更多信息。
4、简单用例
1 import java.util.regex.Matcher; 2 import java.util.regex.Pattern; 3 4 public class Test { 5 public static void main(String[] args) { 6 // TODO Auto-generated method stub 7 p("abc".matches("...")); 8 p("a124345b".replaceAll("\d", "-")); 9 10 Pattern p = Pattern.compile("[a-z]{3}"); 11 Matcher m = p.matcher("abc"); 12 p(m.matches()); 13 14 p(Pattern.matches("[a-z]{3}", "abc")); 15 } 16 17 public static void p(Object o) { 18 System.out.println(o); 19 } 20 }
输出结果:
true
a------b
true
true
补充:正则表达式断言
所谓断言就是要匹配的字符串前面或后面必须含有(不含有)哪些指定的字符串。
前向断言:(?<=(AB))CD 或 (?<!(AB))CD CD前面必须有(没有)AB
后向断言:CD(?=AB) 或 CD(?!AB) CD后面必须有(没有)AB
举例:{"termCount":900,"terms":[{"name":"圆柱"},{"name":"对应角"},{"name":"正有理数"} 需要匹配name后面的汉字
Pattern pattern = Pattern.compile("(?<=("name":"))[^"]+(?=("))");
Eclipse中导入包的快捷方式:将光标移到相应的类上,按下 Ctrl+Shift+M,Eclipse会自动帮你完成导入的工作了。
此外,直接CTRL+SHIFT+O 更快,直接导所有的,还删除掉未用的包,功能更加强大。