zoukankan      html  css  js  c++  java
  • 01_正则表达式_06_简易爬虫获取数据

    【简述】

    本篇内容简单写了一个爬取网页的的邮箱内容。

    网址就是一个博客园自己的测试网址:http://www.cnblogs.com/HigginCui/p/5809835.html

    【代码】

    package com.Higgin.Regex;
    
    import java.io.BufferedReader;
    import java.io.InputStreamReader;
    import java.net.URL;
    import java.net.URLConnection;
    import java.util.regex.Matcher;
    import java.util.regex.Pattern;
    import org.junit.Test;
    
    
    public class SpilderDemo {
        
        @Test
        public void getEmail() throws Exception{
            URL url=new URL("http://www.cnblogs.com/HigginCui/p/5809835.html");
            URLConnection conn=url.openConnection();
            BufferedReader bufIn=new BufferedReader(new InputStreamReader(conn.getInputStream()));
            String line=null;
            String mailreg="\w+@\w+(\.\w+)+";
            
            Pattern p=Pattern.compile(mailreg);
            
            while((line=bufIn.readLine())!=null){
                Matcher m=p.matcher(line);
                while(m.find()){
                    System.out.println(m.group());
                }
            }
        }
        
    }

    【运行结果】

  • 相关阅读:
    一些基本数据类型问题
    File创建
    zip解压文件java
    Arrays 的copyOf()
    浏览器客户端-自定义服务端
    TCP并发复制上传文件
    TCP传输过程复制文件
    TCP通讯
    TCP通讯
    css3 animation
  • 原文地址:https://www.cnblogs.com/HigginCui/p/5811631.html
Copyright © 2011-2022 走看看