2020年9月16日:
正则表达式的主要应用对象是文本,其最基础的功能是文本匹配,而文本是由一个个的字符组成,因此正则表达式实际上是对字符的匹配。正则表达式中的字符分为 普通字符和 元字符,而正则表达式就是这些普通字符和特殊元字符组合成的表示一个特定匹配规则的表达式。
1. 普通字符
实际上,大多数字符都将简单地匹配它们的自身值,它们被称为普通字符,如数字(0-9),字母(a-z, A-Z)等。例如,正则表达式hello123
将匹配字符串'hello123',因为该这则表达式中都是普通字符,不包含特殊元字符。当然,我们可以通过指定正则表达式的匹配模式为 忽略字母大小写模式,这么正则表达式hello123
将能够匹配'Hello123', 'HellO123', 'HELLO123'等字符串。
2. 元字符
上面提到,正则表达式除了进行字符自身之的匹配外,还可以基于指定的规则进行模糊匹配。这就意味着它需要一些特殊字符来表示这些模糊的匹配规则,因此这些特殊字符默认情况下并不能匹配到它们自身的字面值,而是表示某些特殊的功能。这些特殊元字符包括:., [, ], (, ), *, +, ?, ^, $, \, |。这些特殊字符的使用,会在下面进行详细讲解。正则表达式的重点和难点也就在于对正则表达式引擎的工作原理以及对这些特殊元字符掌握和灵活运用。