zoukankan      html  css  js  c++  java
  • java正则表达式之java小爬虫

    这个java小爬虫, 功能很简单,只有一个,抓取网上的邮箱。用到了javaI/O,正则表达式。

    public static void main(String[] args) throws IOException {
            // TODO Auto-generated method stub
    //        List<String> list= getEmail();
            List<String> list= getEmailFromWeb();
            for (String string : list) {
                System.out.println(string);
            }
        }
    
        public static List<String> getEmail() throws IOException{
            //1.读取源文件
            BufferedReader bufferedReader= new BufferedReader(new FileReader("G:\index.htm"));
            //2.对读取的数据进行规则的匹配
            String regex_email= "\w+@\w+(\.[a-zA-Z]{2,3}){1,3}";//xinwenge@vip.qq.com
            Pattern pattern= Pattern.compile(regex_email);
            String line = null;
            List<String> list= new ArrayList<>();
            while ((line= bufferedReader.readLine())!=null) {
                Matcher matcher= pattern.matcher(line);
                while (matcher.find()) {
                    list.add(matcher.group());
                }
            }
            return list;
        }
        
    public static List<String> getEmailFromWeb() throws IOException{
    
        //1.读取web源文件
        URL url= new URL("http://news.qq.com/zt2015/wxghz/index.htm");
        BufferedReader bufferedReader= new BufferedReader(new InputStreamReader(url.openStream()));
        //2.对读取的数据进行规则的匹配
        String regex_email= "\w+@\w+(\.[a-zA-Z]{2,3}){1,2}";
        Pattern pattern= Pattern.compile(regex_email);
        String line = null;
        List<String> list= new ArrayList<>();
        while ((line= bufferedReader.readLine())!=null) {
            Matcher matcher= pattern.matcher(line);
            while (matcher.find()) {
                list.add(matcher.group());
            }
        }
        return list;
    
        }

    output:
    xinwenge@vip.qq.com

    哈哈,爬的腾讯新闻里面的一个网页。

  • 相关阅读:
    UVALive 6319 暴力
    UVALive 6322 最大匹配
    uvalive 6323 状态压缩DP
    hdu 3874 树状数组
    hdu 3721 树的直径
    hdu 4258 斜率DP
    组队练习 2011年福州全国邀请赛
    FZU 2041 二分枚举
    Kafka基础教程(三):C#使用Kafka消息队列
    Kafka基础教程(二):Kafka安装
  • 原文地址:https://www.cnblogs.com/westward/p/5400831.html
Copyright © 2011-2022 走看看