zoukankan      html  css  js  c++  java
  • 01_正则表达式_06_简易爬虫获取数据

    【简述】

    本篇内容简单写了一个爬取网页的的邮箱内容。

    网址就是一个博客园自己的测试网址:http://www.cnblogs.com/HigginCui/p/5809835.html

    【代码】

    package com.Higgin.Regex;
    
    import java.io.BufferedReader;
    import java.io.InputStreamReader;
    import java.net.URL;
    import java.net.URLConnection;
    import java.util.regex.Matcher;
    import java.util.regex.Pattern;
    import org.junit.Test;
    
    
    public class SpilderDemo {
        
        @Test
        public void getEmail() throws Exception{
            URL url=new URL("http://www.cnblogs.com/HigginCui/p/5809835.html");
            URLConnection conn=url.openConnection();
            BufferedReader bufIn=new BufferedReader(new InputStreamReader(conn.getInputStream()));
            String line=null;
            String mailreg="\w+@\w+(\.\w+)+";
            
            Pattern p=Pattern.compile(mailreg);
            
            while((line=bufIn.readLine())!=null){
                Matcher m=p.matcher(line);
                while(m.find()){
                    System.out.println(m.group());
                }
            }
        }
        
    }

    【运行结果】

  • 相关阅读:
    很难理解的三个设计模式
    设计模式思考(转)
    AOP
    CAP理论(摘)
    DDBS
    NoSql
    Enterprise Library 企业库
    padright padleft
    Process ProcessThread Thread
    053374
  • 原文地址:https://www.cnblogs.com/HigginCui/p/5811631.html
Copyright © 2011-2022 走看看