zoukankan      html  css  js  c++  java
  • JAVA实现一个简单的爬虫

    网络爬虫是一种自动获取网页内容的程序,是搜索引擎的重要组成部分。

    用java打造属于自己的爬虫

    网络上的图片太多 一个一个的保存实在太浪费时间

    基于此 就使用了java做了一个小工具

    功能是文件的复制 以及 网络上图片的下载

    首先是封装一个IOUtlis类方法,用于实现文件的复制和文件传输流的关闭

    package hh;
    import java.io.FileInputStream;
    import java.io.FileOutputStream;
    import java.io.IOException;
    import java.io.InputStream;
    import java.io.OutputStream;
    import java.io.Reader;
    import java.io.Writer;
    import java.net.*;
    public class IOUtils 
    {
    //	buff缓冲区
    
    public static void closeQuietly(FileOutputStream outpustream)
    {
    	 if(outpustream!=null)
    	 {
          
    		 
        try
    	{
        	outpustream.close();
    	} 
          
          
          catch (IOException e)
    	{
    		// TODO 自动生成的 catch 块
    		//e.printStackTrace();
    	}
    		 
        
    		 
    	 }
    	 
    	 
    }
    public static void closeQuietly(FileInputStream inStream)
    {
    	 if(inStream!=null)
    	 {
          
    		 
        try
    	{
    		inStream.close();
    	} 
          
          
          catch (IOException e)
    	{
    		// TODO 自动生成的 catch 块
    		//e.printStackTrace();
    	}
    		 
        
    		 
    	 }
    	 
    	 
    }
    public static void closeQuietly(Reader reader)
    {
    	 if(reader!=null)
    	 {
    		 try
    		 {
    			 reader.close();
    			 
    		 }
    		 catch(IOException e )
    		 {
    			 //
    			 
    		 }
    		 
    		 
    	 }
    	 
    	 
    }
    
    public static void copy(InputStream instream,OutputStream outputstream,int  buff) throws IOException
    {
    	byte[] buffer=new byte[buff];
    	int len;//计算读入的数据
    	if(instream==null)
    	{
    		throw new IllegalArgumentException("INPUTSTREAM不能为空");
    		
    	}
    	if(outputstream==null)
    	{
    		throw new IllegalArgumentException("outputstream不能为空");
    		
    	}
    	if(buff<=0)
    	{
    		
    		throw new IllegalArgumentException("outputstream不能为空");
    
    		
    	}
    	while((len=instream.read(buffer))>0)
    	{
    			//不知道怎么处理异常就让调用者处理
    		outputstream.write(buffer,0,len);
    		
    	}
    
    }
    
    public static void copy(InputStream instream,OutputStream outputstream) throws IOException
    {
    	
    copy(instream,outputstream,1024);
    }
    

     copy这个方法实现了文件的复制功能,closequietly将文件流安静的关闭

    方案一

    文件的复制,目的是将E盘的1.txt文件复制到W盘的2.txt文件里 最后不要忘了关闭文件的输入输出流

    不然可能导致复制失败

    package hh;
    
    import java.io.FileInputStream;
    import java.io.FileNotFoundException;
    import java.io.FileOutputStream;
    import java.io.IOException;
    
    public class test {
    
    	public static void main(String[] args)
    	{
    		long startMS=System.currentTimeMillis();
    		
    		FileInputStream fis=null;
    		FileOutputStream fos=null;
    		
    		
    		try
    		{
    			fis=new FileInputStream("E:\1.txt");
    			fos=new FileOutputStream("W:\2.txt");
    			IOUtils.copy(fis,fos,1024);
    			long endMS=System.currentTimeMillis();
    			System.out.println("拷贝完成 耗时"+(endMS-startMS));
    			
    		} catch (FileNotFoundException e) {
    			// TODO Auto-generated catch block
    			e.printStackTrace();
    		} catch (IOException e) {
    			// TODO Auto-generated catch block
    			e.printStackTrace();
    		}
    		finally
    		{
    			try {
    				fos.close();
    			} catch (IOException e) {
    				// TODO Auto-generated catch block
    				e.printStackTrace();
    			}
    			try {
    				fis.close();
    			} catch (IOException e) {
    				// TODO Auto-generated catch block
    				e.printStackTrace();
    			}
    			
    		}
    		
    		
    		
    	}
    

      方案二

       调用了java.net.*;这个包 使用url类将图片地址比如下图画圈部分当做一个文件的输入流来使用,再使用copy方法将图片复制到本地。最后我发现该网站所有的图片都有一个特定的图片递增规则(可以考虑使用正则表达式)这样就可以通过变量来完成网站里所有的图片的下载

    package hh;
    import java.io.FileOutputStream;
    import java.io.IOException;
    import java.io.InputStream;
    import java.io.OutputStream;
    import java.net.*;
    public class abc {
    
    
    	public static void main(String []args)
    	{
    		  InputStream inpustream=null;
    	      FileOutputStream outputstream=null;
    
    		try {
    			long start=System.currentTimeMillis();
    		int i=0;
    		for(i=1;i<550;i++)
    		{
    			URL url=new URL("http://www.bokee.com//topic/images/%E6%9C%AA%E6%A0%87%E9%A2%98-2("+i+").jpg");
    	    	  inpustream=url.openStream();
    	    	  
    //	    	  http://www.bokee.com//topic/images/%E6%9C%AA%E6%A0%87%E9%A2%98-1(530).jpg
    //	    	  <img src="/_upload/article/images/66/b6/810dfe294d62aa81fba5ca1baef9/57c958b6-72e8-4331-a431-24b06039b649.jpg">
    //	    	  <img src="/_upload/article/images/99/a1/416529614b32ba6a2f824bbbafae/04b85865-f1b9-4128-b33f-04eff1e81c5a.jpg">
    	          outputstream=new FileOutputStream("W://main//"+i+".png");
    		      IOUtils.copy(inpustream, outputstream);
    		}
    		long end=System.currentTimeMillis();
    
    		System.out.println("下载成功,耗时"+(start-end)+"毫秒");
    		} 
    		
    		catch (MalformedURLException e) {
    			// TODO Auto-generated catch block
    			e.printStackTrace();
    		} catch (IOException e) {
    			// TODO Auto-generated catch block
    			e.printStackTrace();
    		}
    	
    	
    	
    	
    	
    	}
    	
    

      

     成果如下,最终满足了自己的需求,节省了时间。

  • 相关阅读:
    java源码ReentrantLock源码分析1
    java源码Semaphore源码分析
    java源码HashMap源码分析
    java源码LinkedHashMap类设计
    java源码HashMap类设计
    java源码ConcurrentHashMap分析1
    java源码CountDownLatch源码分析
    转linux误删文件恢复 简单
    「翻译」Redis协议 简单
    刘昕明:送给和我一样曾经浮躁过的PHP程序员 简单
  • 原文地址:https://www.cnblogs.com/a986771570/p/7261864.html
Copyright © 2011-2022 走看看