zoukankan      html  css  js  c++  java
  • Java爬虫原理分析

    当我们需要从网络上获取资源的时候,我们一般的做法就是通过浏览器打开某个网站,然后将我们需要的东西下载或者保存下来。

    但是,当我们需要大量下载的时候,这个时候通过人工一个个的去点击下载,就显得太没有效率了。这个时候我们就可以通过程序来实现批量的获取资源的方式,我们称之为爬虫。也就是从网络上的站点爬取资源的意思。

    那么在java中要实现网络爬虫,就必须要使用到java中的java.net包中的一些类。

     举例:

    package com.fuwh;
    
    import java.io.BufferedReader;
    import java.io.IOException;
    import java.io.InputStream;
    import java.io.InputStreamReader;
    import java.net.HttpURLConnection;
    import java.net.MalformedURLException;
    import java.net.URL;
    
    public class Crawler01 {
    
        public static void main(String[] args) {
            
            String urlStr="http://www.cnblogs.com/zerotomax/";
            try {
                URL url=new URL(urlStr);
                    HttpURLConnection conn= (HttpURLConnection) url.openConnection();
                    conn.connect();
                    InputStream in=conn.getInputStream();
                    BufferedReader read=new BufferedReader(new InputStreamReader(in));
                    StringBuffer sb=new StringBuffer();
                    String s=read.readLine();
                    while( s!=null) {
                        sb.append(s+"
    ");
                        s=read.readLine();
                    }
                    
                    System.out.println(sb.toString());
                    in.close();
            } catch (MalformedURLException e) {
                // TODO Auto-generated catch block
                e.printStackTrace();
            } catch (IOException e) {
                // TODO Auto-generated catch block
                e.printStackTrace();
            }
        }
    }
    View Code

    然后从抓去的页面中获取我们想要的内容。

    当然,现在已经有很多很好的开源框架可以用来实现爬虫。

  • 相关阅读:
    C# 从服务器下载文件
    不能使用联机NuGet 程序包
    NPOI之Excel——合并单元格、设置样式、输入公式
    jquery hover事件中 fadeIn和fadeOut 效果不能及时停止
    UVA 10519 !! Really Strange !!
    UVA 10359 Tiling
    UVA 10940 Throwing cards away II
    UVA 10079 Pizze Cutting
    UVA 763 Fibinary Numbers
    UVA 10229 Modular Fibonacci
  • 原文地址:https://www.cnblogs.com/zerotomax/p/7225372.html
Copyright © 2011-2022 走看看