zoukankan      html  css  js  c++  java
  • java获得采集网页内容的方法小结

          为了写一个java的采集程序,从网上学习到3种方法可以获取单个网页内容的方法,主要是运用到是java IO流方面的知识,对其不熟悉,因此写个小结。

    import java.io.BufferedReader;
    import java.io.ByteArrayOutputStream;
    import java.io.IOException;
    import java.io.InputStreamReader;
    import java.net.HttpURLConnection;
    import java.net.URL;
    import java.util.regex.Matcher;
    import java.util.regex.Pattern;
    
    public class Get_Html {
        public static void main(String[] args) throws Exception    {
        	long start= System.currentTimeMillis();
            String str_url="http://www.hiphop8.com/city/guangdong/guangzhou.php";
            Pattern p = Pattern.compile(">(13\d{5}|15\d{5}|18\d{5}|147\d{4})<");
    	
            //String html = get_Html_2(str_url);
            //String html = get_Html_1(str_url);
            String html = get_Html_3(str_url);
            Matcher m = p.matcher(html);
            
            int num = 0;       
    		while(m.find())
    		{
    			System.out.println("打印出的号码段落:"+m.group(1)+"  编号"+(++num));	
    		}
           System.out.println(num);       
           long end = System.currentTimeMillis();
    		System.out.println("花费的时间"+(end-start)+"毫秒");
        } 
        public static String get_Html_2(String str_url) throws IOException{
        	URL url = new URL(str_url);
        	String content="";
    		StringBuffer page = new StringBuffer();
    		try {		
    			BufferedReader in = new BufferedReader(new InputStreamReader(url
                        .openStream(), "utf-8"));			
    			while((content = in.readLine()) != null){
    				page.append(content);
    			}
    		} catch (IOException e) {
    			// TODO Auto-generated catch block
    			e.printStackTrace();
    		}
            return page.toString();
        }
        
        public static String get_Html_1(String str_url) throws IOException{
            URL url = new URL(str_url);
            HttpURLConnection conn = (HttpURLConnection)url.openConnection();
            InputStreamReader input = new InputStreamReader(conn.getInputStream(), "utf-8");  
            BufferedReader bufReader = new BufferedReader(input);  
            String line = "";  
            StringBuilder contentBuf = new StringBuilder();  
            while ((line = bufReader.readLine()) != null) {  
                contentBuf.append(line);  
            }
            return contentBuf.toString();
        }
        
        /**
         * 通过网站域名URL获取该网站的源码
         * @param url
         * @return String
         * @throws Exception
         */
        public static String get_Html_3(String str_url) throws Exception    {
        	URL url = new URL(str_url);
            HttpURLConnection conn = (HttpURLConnection)url.openConnection();
            conn.setRequestMethod("GET");
            conn.setConnectTimeout(5 * 1000);                        //设置连接超时
            java.io.InputStream inStream = conn.getInputStream();  //通过输入流获取html二进制数据
                  
            byte[] data = readInputStream(inStream);  //把二进制数据转化为byte字节数据
            String htmlSource = new String(data);
            return htmlSource;
        }
        
        /**
         * 把二进制流转化为byte字节数组
         * @param inStream
         * @return byte[]
         * @throws Exception
         */
        public static byte[] readInputStream(java.io.InputStream inStream) throws Exception {
            ByteArrayOutputStream outStream = new ByteArrayOutputStream();
            byte[]  buffer = new byte[1204];
            int len = 0;
            while ((len = inStream.read(buffer)) != -1){
                outStream.write(buffer,0,len);
            }
            inStream.close();
            return outStream.toByteArray();         
        } 
    }

    【分别测试6次的结果】不知道是不是获取的网页数量内容较小,采集效率差不多,不过方法2应该是最好最简便的。

    //get_Html_1  967  2658  1132  1199  988  1236
    //get_Html_2  2323 2244 1202  1166  1081  1011
    //get_Html_3  978  1219   1527   1133  1192  1774

    1、关于url  .openStream()和conn.getInputStream()。

           二者返回的的都是InputStrema对象,且都是通过openConnection()方法获取URLConnection对象,然后调用getInputStream()方法,所以方法2和方法1是一样的,但前者更方便。

    image

    2、关于BufferedReader类。

    【该类的功能】:能将  字符流  放入缓冲区(内存中的一块小区域),以便实现高效的读取。

    【看构造方法】:

    BufferedReader(Reader in)                   创建一个使用默认大小输入缓冲区来缓冲字符输入流。

    BufferedReader(Reader in, int sz)          创建一个使用指定大小输入缓冲区的缓冲字符输入流。

    【常用方法】:readLine()可以快速的实现文本字符的行读取。

    3、关于InputStreamReader 类

    InputStreamReader 是从字节流到字符流的桥梁:它读入字节,并根据指定的编码方式,将之转换为字符流,它是Reader的子类。

    而为了达到更高效率,我们经常用 BufferedReader 封装 InputStreamReader , 所以我们经常看到的用法是

    BufferedReader Buf = new BufferedReader(new InputStreamReader(System.in);

    这里的InputStreamReader类的功能是将字节流转换为字符流,所以以上语句实现了 :将 字节输入流 转换为 字符输入流 且放置缓冲区。

    引用一张图:image

    4、关于 ByteArrayOutputStream类

           它是OutputStream类的扩展类,其构造函数是byteArrayInputStream(byte []buf),作用是把字节数组buf 变成输入流的形式,并通过toString()或者toByteArray()方法或得想要的数据形式。方法3中的readInputStream方法可改为返回String类型,将后面的outStream.toByteArray()改为outStream.toString()方法,这样又精简了代码。

    5、 关于InputStream类

           InputStream与OutputStream: 是  8位字节 输入/输出流类的基类,主要用在处理二进制数据,它是按字节来处理的。文件在硬盘或在传输时都是以字节的方式进行的,包括图片等都是按字节的方式存储的,其余的字节流的处理类都是对该类的扩展,如等上面讲ByteArrayInputStream类

           由于InputStream.read()方法是每次从流里只读取读取一个字节,效率会非常低。而InputStream.read(byte[] b)或者InputStream.read(byte[] b,int off,int len)方法,一次可以读取多个字节,效率较高,所以方法3中创建了一个byte字节数组,以便一次性读取更多的字节。当read()方法读取内容为空的时候,返回-1.

          另外字符输入输出流的基类 Reader/Writer,且要知道1个字符= 2字节,字符都是在内存中生成的,一个中文占两个字节,其子类包含有上面讲的的InputStreamRead类与BufferReader类。

          写了几点总结,都是和java的IO流有关的,是不是应该改个标题,想想还是算了,毕竟采集程序中很重要的一部分就是IO流方面的,java在IO流方面提供了丰富的类库,边学边积累吧。

  • 相关阅读:
    MySQL 练习题
    MySQL 增删查改
    HTML显示与隐藏
    360布局
    div布局
    HTML练习2
    HTML练习

    if语句的用法及其案例
    输入输出,数据类型与运算符
  • 原文地址:https://www.cnblogs.com/LZYY/p/3945928.html
Copyright © 2011-2022 走看看