zoukankan      html  css  js  c++  java
  • java爬虫简单实例

    爬虫的实质就是打开网页源代码进行匹配查找,然后获取查找到的结果。
    /*
    * 获取
    * 将正则规则进行对象的封装。 
    * Pattern p = Pattern.compile("a*b");
    * //通过正则对象的matcher方法字符串相关联。获取要对字符串操作的匹配器对象Matcher .
    * Matcher m = p.matcher("aaaaab");
    * //通过Matcher匹配器对象的方法对字符串进行操作。
    * boolean b = m.matches();
    */
    package com.js.ai.modules.pointwall.testxfz; import java.io.BufferedReader; import java.io.FileReader; import java.io.IOException; import java.io.InputStreamReader; import java.net.MalformedURLException; import java.net.URL; import java.util.ArrayList; import java.util.List; import java.util.regex.Matcher; import java.util.regex.Pattern; public class Spider { public static List<String> getMailsByWeb() throws IOException{ //1,读取源文件。 URL url=new URL("http://www.cnblogs.com/Renyi-Fan/p/6896901.html"); BufferedReader bufr=new BufferedReader(new InputStreamReader(url.openStream())); //2,对读取的数据进行规则的匹配。从中获取符合规则的数据. String mail_regex = "\w+@\w+(\.\w+)+"; List<String> list=new ArrayList<String>(); Pattern p = Pattern.compile(mail_regex); String line = null; while((line=bufr.readLine())!=null){ Matcher m = p.matcher(line); while(m.find()){ //3,将符合规则的数据存储到集合中。 list.add(m.group()); } } return list; } public static List<String> getMails() throws IOException{ //1,读取源文件。 BufferedReader bufr=new BufferedReader(new FileReader("c:\mail.html")); //2,对读取的数据进行规则的匹配。从中获取符合规则的数据. String mail_regex = "\w+@\w+(\.\w+)+"; List<String> list = new ArrayList<String>(); Pattern p = Pattern.compile(mail_regex); String line = null; while((line=bufr.readLine())!=null){ Matcher m = p.matcher(line); while(m.find()){ //3,将符合规则的数据存储到集合中。 list.add(m.group()); } } return list; } public static void main(String[] args) throws IOException { // List<String> list = getMails(); // for(String mail : list){ // System.out.println(mail); // } List<String> list=getMailsByWeb(); for(String mail:list){ System.out.println(mail); } } }

      

  • 相关阅读:
    使用Spring MVC统一异常处理实战<转>
    git关联远程仓库命令<原>
    浅谈WebService的调用<转>
    十大Intellij IDEA快捷键<转>
    js中的target与currentTarget的区别<转>
    seajs中引用jquery插件
    js实现观察者模式
    jQuery插件开发全解析<转>
    Android视频
    Android开发环境搭建全程演示(jdk+eclipse+android sdk)
  • 原文地址:https://www.cnblogs.com/ipetergo/p/6934684.html
Copyright © 2011-2022 走看看