作者:gnuhpc
出处:http://www.cnblogs.com/gnuhpc/
1.String类是immutable的
一旦String被建立,它的内容就不能被更改了,要想去修改就要新建一个String。StringBuffer类则与String一样,但是其内容是可以被修改的,它是线程安全的。而StringBuilder则与StringBuffer基本一样,但是它是线程不安全的,是轻量级的。它们都在java.lang包中。
2.Java中的正则表达
正则表达在Matcher和Pattern类中使用,都在java.util.regex中,你使用Pattern建立一个正则表达,用Matcher进行匹配。其实在很多String的方法中都支持正则表达。注意在使用正则表达时要处理PatternSyntaxException异常,这个异常是在正则表达语法错误时抛出的。
正则表达可以嵌套,比如 [[abc][012]]就定义了匹配abc或者012的一个模式,但是也可以写成 [abc012]。而且可以使用逻辑连接符进行连接,例如要匹配所有word字符(所有大小写,数字0-9,下划线)但不包含大写字母的模式,可以写作 [/w && [^A-Z]]。
注意在Java的正则表达中使用转义,则使用//来表示一个/,例如/b/w+/b则要在Java中写作://b//w+//b
匹配器分为三类
第一个是Greedy,也就是以上我们所举的例子,它匹配最长的部分,试图搜索第一个匹配之前读完(或者说吃掉)整个输入字符串。如果第一个匹配尝试(整个输入字符串)失败,匹配器就会在输入字符串中后退一个字符并且再次尝试,重复这个过程,直到找到匹配或者没有更多剩下的字符可以后退为止。
而Reluctant则是勉强能够匹配的一种,又叫Lazy,匹配最短的,使用?创建,采取相反的方式:它们从输入字符串的开头开始,然后逐步地一次读取一个字符搜索匹配。它们最后试图匹配的内容是整个输入字符串。
第三种叫做 possessive ,这种匹配方式与Greedy方式相似,所不同的是它不够聪明,当它一口吃掉所有可以吃的字符时发现不匹配则认为整个串都不匹配,它不会试着吐出几个。它的行为和大地主相似,贪婪但是愚蠢,所以名曰强占的。 使用+创建。
例如, "simple sample" ,用模式 s.+e 则匹配整个字符串。其中.为除换行符以外的任意字符,而+则表示一个或多个,.+就表示其中有一个或多个除换行符以外的任意字符。这是Greedy。
s.+?e 则会匹配 simple,这匹配了最短的字符串。
s.++e 则不会匹配任何字符串,因为.++匹配了所有s以后的字符,这让e不知所配,而导致匹配失败。
组的应用:
I had one dog, but he had two dogs.
She had a cat, but did she want more cats?
She also has a dog. But his dogs were bigger.
我们想匹配单复数名词,但是不愿意在两个句子中进行匹配。例如,我们匹配dog和dogs,cat和cats,但是第三个句子是两个句子之间才匹配的。所以我们不匹配那个句子。怎么写呢?
我们就用到了Group组:/b(/w+)/b[^.?!]*?/1s
/b为字符边界, (/w+)则代表了一个组,这个组包含一个单词。[^.?!]代表不包含标点符号(.或?或!)。*?表示重复任意次,但尽可能少重复。/1为那个组,s则意味着那个单词的复数形式