zoukankan      html  css  js  c++  java
  • 幽灵蛛(pholcus)(四)--正则表达式学习资料

    正则表达式和strings包相同,也是一个非常通用的包,在解析网页时肯定是没法略过它的。

    转载请注明出处:http://www.cnblogs.com/SSSR/p/6347542.html

    博客:

    http://studygolang.com/articles/99 基础介绍

    http://studygolang.com/articles/104 

    http://studygolang.com/articles/5565

    以下为测试通过代码:

    regexp.go

    package regexplearning
    
    import (
    	"fmt"
    	"regexp"
    )
    import "bytes"
    
    func RegixAll(){
    	FindTest()
    	FindIndexTest()
    	FindStringTest()
    	FindChinesString()
    	FindNumOrLowerLetter()
    	FindAndReplace()
    }
    
    
    //传入[]byte,返回[]byte
    func FindTest() {
    	str := "ab001234hah120210a880218end"
    	reg := regexp.MustCompile("\d{6}") //六位连续的数字
    	fmt.Println("------Find------")
    	//返回str中第一个匹配reg的字符串
    	data := reg.Find([]byte(str))
    	fmt.Println(string(data))
    
    	fmt.Println("------FindAll------")
    	//返回str中全部匹配reg的字符串
    	//第二个參数表示最多返回的个数。传-1表示返回全部结果
    	dataSlice := reg.FindAll([]byte(str), -1)
    	for _, v := range dataSlice {
    		fmt.Println(string(v))
    	}
    }
    
    //传入[]byte,返回首末位置索引
    func FindIndexTest() {
    	fmt.Println("------FindIndex------")
    	//返回第一个匹配的字符串的首末位置
    	reg2 := regexp.MustCompile("start\d*end") //start開始。end结束。中间全是数字
    	str2 := "00start123endhahastart120PSend09start10000end"
    	//index[0]表示開始位置,index[1]表示结束位置
    	index := reg2.FindIndex([]byte(str2))
    	fmt.Println("start:", index[0], ",end:", index[1], str2[index[0]:index[1]])
    
    	fmt.Println("------FindAllIndex------")
    	//返回全部匹配的字符串首末位置
    	indexSlice := reg2.FindAllIndex([]byte(str2), -1)
    	for _, v := range indexSlice {
    		fmt.Println("start:", v[0], ",end:", v[1], str2[v[0]:v[1]])
    	}
    }
    
    //传入string,返回string(更加方便)
    func FindStringTest() {
    	fmt.Println("------FindString------")
    
    	str := "ab001234hah120210a880218end"
    	reg := regexp.MustCompile("\d{6}") //六位连续的数字
    	fmt.Println(reg.FindString(str))
    	fmt.Println(reg.FindAllString(str, -1))
    	//下面两个方法是相似的
    	fmt.Println(reg.FindStringIndex(str))
    	fmt.Println(reg.FindIndex([]byte(str)))
    }
    
    //查找汉字
    func FindChinesString() {
    	str := "hello中国hello世界和平hi好"
    	reg := regexp.MustCompile("[\p{Han}]+")
    	fmt.Println(reg.FindAllString(str, -1))
    
    	//[中国 世界和平 好]
    }
    
    //查找数字或小写字母
    func FindNumOrLowerLetter() {
    	str := "HAHA00azBAPabc09FGabHY99"
    	reg := regexp.MustCompile("[\d|a-z]+")
    	fmt.Println(reg.FindAllString(str, -1))
    
    	//[00az abc09 ab 99]
    }
    
    //查找并替换
    func FindAndReplace() {
    	str := "Welcome for Beijing-Tianjin CRH train."
    	reg := regexp.MustCompile(" ")
    	fmt.Println(reg.ReplaceAllString(str, "@")) //将空格替换为@字符
    
    	//Welcome@for@Beijing-Tianjin@CRH@train.
    }
    
    
    func RegixBase() {
    	//这个测试一个字符串是否符合一个表达式。
    	match, _ := regexp.MatchString("p([a-z]+)ch", "peach")
    	fmt.Println(match)
    	//上面我们是直接使用字符串,但是对于一些其他的正则任务,你需要使用 Compile 一个优化的 Regexp 结构体。
    	r, _ := regexp.Compile("p([a-z]+)ch")
    	//这个结构体有很多方法。这里是类似我们前面看到的一个匹配测试。
    	fmt.Println(r.MatchString("peach"))
    	//这是查找匹配字符串的。
    	fmt.Println(r.FindString("peach punch"))
    	//这个也是查找第一次匹配的字符串的,但是返回的匹配开始和结束位置索引,而不是匹配的内容。
    	fmt.Println(r.FindStringIndex("peach punch"))
    	//Submatch 返回完全匹配和局部匹配的字符串。例如,这里会返回 p([a-z]+)ch 和 `([a-z]+) 的信息。
    	fmt.Println(r.FindStringSubmatch("peach punch"))
    	//类似的,这个会返回完全匹配和局部匹配的索引位置。
    	fmt.Println(r.FindStringSubmatchIndex("peach punch"))
    	//带 All 的这个函数返回所有的匹配项,而不仅仅是首次匹配项。例如查找匹配表达式的所有项。
    	fmt.Println(r.FindAllString("peach punch pinch", -1))
    	//All 同样可以对应到上面的所有函数。
    	fmt.Println(r.FindAllStringSubmatchIndex(
    		"peach punch pinch", -1))
    	//这个函数提供一个正整数来限制匹配次数。
    	fmt.Println(r.FindAllString("peach punch pinch", 2))
    	//上面的例子中,我们使用了字符串作为参数,并使用了如 MatchString 这样的方法。我们也可以提供 []byte参数并将 String 从函数命中去掉。
    	fmt.Println(r.Match([]byte("peach")))
    	//创建正则表示式常量时,可以使用 Compile 的变体MustCompile 。因为 Compile 返回两个值,不能用语常量。
    	r = regexp.MustCompile("p([a-z]+)ch")
    	fmt.Println(r)
    	//regexp 包也可以用来替换部分字符串为其他值。
    	fmt.Println(r.ReplaceAllString("a peach", "<fruit>"))
    	//Func 变量允许传递匹配内容到一个给定的函数中,
    	in := []byte("a peach")
    	out := r.ReplaceAllFunc(in, bytes.ToUpper)
    	fmt.Println(string(out))
    }
    

      

     regexp_test.go

    package regexplearning
    
    import (
    	"fmt"
    	"testing"
    	//"regexplearning"
    )
    var print=fmt.Println
    func TestFindTest(t *testing.T) {
    	FindTest()
    	fmt.Println("Hello World!这是测试")
    }
    
    func TestRegixBase(t *testing.T) {
    	RegixBase()
    	fmt.Println("Hello World!这是测试")
    }
    
    func TestRegixAll(t *testing.T) {
    	print("测试所有的函数")
    	RegixAll()
    	fmt.Println("Hello World!这是测试")
    }
    

      

  • 相关阅读:
    Jzoj4721 LCS
    Jzoj4721 LCS
    Bzoj3196 二逼平衡树
    Bzoj3196 二逼平衡树
    Jzoj4715 树上路径
    Jzoj4715 树上路径
    031下一个排列
    汉诺塔问题【递归】
    求全排列和组合问题
    030串联所有单词并匹配
  • 原文地址:https://www.cnblogs.com/SSSR/p/6347542.html
Copyright © 2011-2022 走看看