【简述】
本篇内容简单写了一个爬取网页的的邮箱内容。
网址就是一个博客园自己的测试网址:http://www.cnblogs.com/HigginCui/p/5809835.html
【代码】
package com.Higgin.Regex; import java.io.BufferedReader; import java.io.InputStreamReader; import java.net.URL; import java.net.URLConnection; import java.util.regex.Matcher; import java.util.regex.Pattern; import org.junit.Test; public class SpilderDemo { @Test public void getEmail() throws Exception{ URL url=new URL("http://www.cnblogs.com/HigginCui/p/5809835.html"); URLConnection conn=url.openConnection(); BufferedReader bufIn=new BufferedReader(new InputStreamReader(conn.getInputStream())); String line=null; String mailreg="\w+@\w+(\.\w+)+"; Pattern p=Pattern.compile(mailreg); while((line=bufIn.readLine())!=null){ Matcher m=p.matcher(line); while(m.find()){ System.out.println(m.group()); } } } }
【运行结果】