zoukankan      html  css  js  c++  java
  • 小小图片爬虫

    前言

    通过对HttpClient的学习。打开了我对后台的理解。在我的眼中,后台不再是依赖前端的存在,它能够是一种无浏览器。无APP界面的存在。这篇博客将尽具体的介绍HttpClient实现网络爬虫。

    世界上第一个爬虫叫做“互联网漫游者”(www waderer)。他是由麻省理工学院(MIT)的学生马休·格雷在1993年写的。

    假定我们从一家门户站点的首页出发,先下载这个网页,通过分析这个网页,能够找到藏在它里面的超链接,就知道这家门户站点全部链接的网页。

    站点蜘蛛网

    爬虫就是从某个节点(某个网页)開始,爬取链接中隐藏的秘宝。

    事前准备

    1. 在代码的開始,我们须要先准备我们须要的那个节点,我们打开我们浏览器(这里以谷歌浏览器为演示样例),我们输入搜索自己喜欢的内容页面
      喜欢的内容
    2. 接着我们打开浏览器的开发人员,假设实在是找不到,那就直接点击F12。效果是一样的
      谷歌浏览器的开发人员开启方式
    3. 打开开发人员之后,我们要选择当中的Network,通过这个栏目,我们就能看到全部的http请求和响应等等信息。
      1代表我们选择的Network。2是我们想要的链接资源。3就是链接资源。
      开发人员模式下我们能看到的
    4. 点击http请求(即点击3)我们就能看到全部的具体信息,例如以下图所看到的
      http的数据
    5. 之后。就能够准备我们要的第一个材料,一个链接操作例如以下。我们右击一个http链接。然后把它复制下来。
      复制链接

    项目结构

    项目环境

    环境Encoding:UTF-8
    eclipse环境说明

    项目说明

    项目包含:
    存放一些对象的model层
    存放响应的servlet层
    存放工具的utils层
    还有就是一个页面index.jsp
    /* 事实上让我写这个页面的时候,我是拒绝的,由于这个小爬虫是不须要页面的,添加页面仅仅是为了直观而已,所以我就写了一个简单的页面。当然你能够使用APP、WindowsForm、swing的界面,或者什么界面都不要。直接输入參数即可。由于后台要的仅仅是參数 */

    项目文件夹

    项目结构说明


    项目编码

    页面

    index.jsp

    <%@ page language="java" contentType="text/html; charset=UTF-8"
        pageEncoding="UTF-8"%>
    <!DOCTYPE html>
    <html>
    <head>
    <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
    <title>输入页面</title>
    </head>
    <body>
    <script type="text/javascript"> 
    function checkForm() {
        var keyWord=document.getElementById("keyWord");
        var pageNum=document.getElementById("pageNum");
        var fileUri=document.getElementById("fileUri");
        var num=new RegExp("^[0-9]*$");//推断正整数 /^[1-9]+[0-9]*]*$/    
        if(!num.test(pageNum.value)) {
            alert("请输入数字");
            return false;
        } else if(keyWord.value==""||pageNum.value==""||fileUri==""){
            alert("请填完整内容");
            return false;
        }
        return true;
    }
    </script>
    <%
    String message=(String)request.getAttribute("message");
    if(message!=null) {
        out.print(message);
    }
    %>
        <form action="CatchPicture" method="post" onsubmit="return checkForm()"> 
            <label for="keyWord">关键字</label>
            <input type="text" value="火影忍者" id="keyWord" name="keyWord"/>
            <label for="pageNum">获得页数</label>
            <input type="text" value="1" name="pageNum" id="pageNum"/><br/>
            <label for="file">保存到</label>
            <input type="text" name="fileUri" id="fileUri" value="C:UsersCHENDesktopsave"/>
            <input type=button value="选择文件夹"/>
            <input type="submit" value="提交"/>
        </form>
    </body>
    </html>

    com.cjm.servlet

    CatchPciture

    package com.cjm.servlet;
    
    import java.io.IOException;
    import java.io.PrintWriter;
    
    import javax.servlet.ServletException;
    import javax.servlet.annotation.WebServlet;
    import javax.servlet.http.HttpServlet;
    import javax.servlet.http.HttpServletRequest;
    import javax.servlet.http.HttpServletResponse;
    
    import org.apache.http.client.ClientProtocolException;
    
    import com.cjm.model.Picture;
    import com.cjm.utils.PictureDownload;
    
    /**
     * @time 2016年4月14日
     * @author CHEN
     * @param 
     * @about 一个图片下载的系统
     */
    
    @WebServlet("/WEB/jsp/CatchPicture")
    public class CatchPicture extends HttpServlet {
        private static final long serialVersionUID = 1L;
        private static Picture picture;
        /**
         * @see HttpServlet#HttpServlet()
         */
        public CatchPicture() {
            super();
            // TODO Auto-generated constructor stub
        }
    
        /**
         * @see HttpServlet#doGet(HttpServletRequest request, HttpServletResponse response)
         */
        protected void doGet(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException {
            // TODO Auto-generated method stub
            doPost(request, response);
        }
    
        /**
         * @see HttpServlet#doPost(HttpServletRequest request, HttpServletResponse response)
         */
        protected void doPost(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException {
            // TODO Auto-generated method stub
            //提示将要下载图片
    /*       获得当前线程的名字
     *       Thread current = Thread.currentThread();  
             System.outPw.println(current.getName());  */
            //输出一些提示的信息。当然最好是写在日志中。我在这里就精简了这部分内容
            System.out.println("下载图片");
            //设置编码
            response.setCharacterEncoding("utf-8");
            request.setCharacterEncoding("utf-8");
            //设置返回提示信息
            PrintWriter outPwPw=response.getWriter();
            //获得用户输入内容
            String keyWordStr=request.getParameter("keyWord");//获得关键字
            String pageNumStr=request.getParameter("pageNum");//获得页数
            String fileUriStr=request.getParameter("fileUri");//获得文件夹路径
            //构造Picture对象
            picture=new Picture(keyWordStr,pageNumStr,fileUriStr);
    
            if(keyWordStr==null||"".equals(keyWordStr)) {//返回失败的提示
                //当然你能够设置很多其它的检验,可是有更好的处理方式,之后我会使用异常处理去使系统具有恢复性
                request.setAttribute("message", "<script type='text/javascript'>alert('请输入关键字');</script>");
            } else {//万事俱备
                //调用下载过程函数
                //这里为什么要使用线程呢,关于线程的小秘密。我之后也会写
                //请注意我这里使用了内部匿名类
                Thread thread =new Thread(){
                    public void run() {
                        try {
                            PictureDownload.downloadPicture(picture);//调用了整个系统最关键的部分
                        } catch (ClientProtocolException e) {
                            // TODO Auto-generated catch block
                            e.printStackTrace();
                        } catch (IOException e) {
                            // TODO Auto-generated catch block
                            e.printStackTrace();
                        }
                    }
                };
                thread.setName("pictureCatchMachine");//给他起个名字
                thread.start();
            }
            request.getRequestDispatcher("index.jsp").forward(request, response);//返回展示页面
        }
    
    
    }
    
    

    com.cjm.model

    JsonFormat

    package com.cjm.model;
    
    /**
     * @time 2016年4月14日
     * @author CHEN
     * @param 
     * jsonStr:须要格式化的json字符串
     * jonFormat:格式化的json字符串。建议就是当须要进行非常多字符串拼接的时候,使用
     *          StringBuffer,至于为什么能够看看我写的String、StringBuffer、StringBuild的差别
     * @about 对jsonStr进行格式化
     *  对jsonStr的格式化事实上就是
     *          1、使用适量的换行
     *          2、使用适当的缩进
     *        样例:
     *      {
                "data": {
                    "id": 1,
                    "name": "junming",
                    "wife": [
                        {
                            "id": 1,
                            "name": "yingli"
                        },
                        {
                            "id": 2,
                            "name": "yingli"
                        }
                    ]
                }
            }
     */
    public class JsonFormat {
        public static String format(String jsonStr) {
            int level = 0;
            StringBuffer jsonFormatStr = new StringBuffer();
            for(int i=0;i<jsonStr.length();i++){
              char c = jsonStr.charAt(i);//取出jsonStr中的全部字符
              if(level>0&&'
    '==jsonFormatStr.charAt(jsonFormatStr.length()-1)){
                jsonFormatStr.append(getLevelStr(level));
              }
              switch (c) {//换行//缩进
              case '{': 
              case '[':
                jsonFormatStr.append(c+"
    ");
                level++;
                break;
              case ',': 
                jsonFormatStr.append(c+"
    ");
                break;
              case '}':
              case ']':
                jsonFormatStr.append("
    ");
                level--;
                jsonFormatStr.append(getLevelStr(level));
                jsonFormatStr.append(c);
                break;
              default:
                jsonFormatStr.append(c);
                break;
              }
            }
    
            return jsonFormatStr.toString();
    
          }
    
          private static String getLevelStr(int level){
            StringBuffer levelStr = new StringBuffer();
            for(int levelI = 0;levelI<level ; levelI++){
              levelStr.append("	");//添加空格
            }
            return levelStr.toString();
          }
    }
    

    MyHttpClient

    package com.cjm.model;
    
    import java.io.BufferedReader;
    import java.io.IOException;
    import java.io.InputStreamReader;
    
    import jdk.internal.org.xml.sax.InputSource;
    
    import org.apache.commons.httpclient.HttpClientError;
    import org.apache.commons.httpclient.HttpState;
    import org.apache.commons.httpclient.HttpStatus;
    import org.apache.http.HttpEntity;
    import org.apache.http.HttpResponse;
    import org.apache.http.client.ClientProtocolException;
    import org.apache.http.client.HttpClient;
    import org.apache.http.client.methods.HttpPost;
    import org.apache.http.entity.StringEntity;
    import org.apache.http.impl.client.DefaultHttpClient;
    import org.apache.http.protocol.HTTP;
    
    /**
     * @time 2016年4月14日
     * @author CHEN
     * @param 
     * @about 获得json返回值
     */
    
    public class MyHttpClient {
        /**
         * @about 通过url获得json返回内容
         * @param url
         * @return
         * @throws ClientProtocolException
         * @throws IOException
         */
        public static String getJsonDate(String url) throws ClientProtocolException, IOException {
            HttpClient client=new DefaultHttpClient();
            HttpPost post=new HttpPost(url);
            //获得响应对象
            HttpResponse response = client.execute(post);
            //响应状态
            Integer statusCode=response.getStatusLine().getStatusCode();
    
            if(statusCode!=HttpStatus.SC_OK) {
                throw new HttpClientError("http status is ERROR");
            }
    
            HttpEntity entityRsp=response.getEntity();
            StringBuffer result=new StringBuffer();
            BufferedReader rd=new BufferedReader(new InputStreamReader(
                    entityRsp.getContent(),HTTP.UTF_8));
    
            String tempLine=rd.readLine();
            while(tempLine!=null) {
                result.append(tempLine);
                tempLine=rd.readLine();
            }
            if(entityRsp!=null) {
                entityRsp.consumeContent();
            }
            return result.toString();
        }
    }
    
    

    Picture

    package com.cjm.model;
    
    /**
     * @time 2016年4月14日
     * @author CHEN
     * @param Picture:对象的关键词、文件路径、页数
     */
    
    public class Picture {
        private String keyWord;//关键词
        private String pageNum;//下载的页数
        private String fileUri;//文件夹路径
    
    
        public Picture() {
            super();
        }
        public Picture(String keyWord,String pageNum,String fileUri) {
            super();
            this.keyWord=keyWord;
            this.pageNum=pageNum;
            this.fileUri=fileUri;
        }
        public String getKeyWord() {
            return keyWord;
        }
        public void setKeyWord(String keyWord) {
            this.keyWord = keyWord;
        }
        public String getPageNum() {
            return pageNum;
        }
        public void setPageNum(String pageNum) {
            this.pageNum = pageNum;
        }
        public String getFileUri() {
            return fileUri;
        }
        public void setFileUri(String fileUri) {
            this.fileUri = fileUri;
        }
    }
    

    com.cjm.utils

    PictureDownload

    package com.cjm.utils;
    
    import java.io.BufferedWriter;
    import java.io.File;
    import java.io.FileWriter;
    import java.io.IOException;
    import java.net.URLEncoder;
    
    import net.sf.json.JSONArray;
    import net.sf.json.JSONObject;
    
    import org.apache.http.client.ClientProtocolException;
    
    import com.cjm.model.MyHttpClient;
    import com.cjm.model.Picture;
    
    
    /**
     * @time 2016年4月14日
     * @author CHEN
     * @param 
     * picture:要下载对象的关键词、文件路径、页数
     * @about 一个图片下载的系统
     */
    public class PictureDownload {
        //下载图片的功能
        public static void downloadPicture(Picture picture) throws ClientProtocolException, IOException {
            //获得下载的页数
            int pageCount=(int)Double.parseDouble(picture.getPageNum());
            //URLEncoder.encode(picture.getKeyWord()):将关键字转化成url格式
            for(int i=0;i<=pageCount;i++) {
                //爬取的图片来自百度
                String uri="http://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj"
                + "&ct=201326592&is=&fp=result&queryWord=" + URLEncoder.encode(picture.getKeyWord())
                + "&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=-1&z=&ic=0"
                + "&word=" + URLEncoder.encode(picture.getKeyWord())
                + "&s=&se=&tab=&width=&height=&face=0&istype=2&qc=&nc=1&fr=&pn=" + 30 * i 
                + "&rn=30&gsm=7000096&1460517144785=";
                //获得返回的json字符串
                String jsonStr= MyHttpClient.getJsonDate(uri);
    
                //将jsonStr字符串格式化之后写入文件
                String rootPathStr=Thread.currentThread().getContextClassLoader().getResource("/").getPath();
                //File file=new File(rootPathStr+"json.txt");
                //if(!file.exists()) {
                //  file.createNewFile();//新建文件
                //}
                //System.out.println("记录文件的地址"+file.getAbsolutePath());//最好是记在日志中
                //開始记录入文件
                /*
                 *装饰者
                 *FileWriter 被装饰者
                 *BufferWriter 装饰者 
                 *就是加了一个缓存,这样等到缓存满了再写到硬盘,提高了性能
                 */
                //FileWriter outFw=new FileWriter(file);
                //BufferedWriter outPw=new BufferedWriter(outFw);
                //outPw.write(jsonStr,0,jsonStr.length());//要写入的内容、起始的位置、结束的位置
                //outPw.close();//这是非常重要的,关闭流
    
                JSONObject objRoot=JSONObject.fromObject(jsonStr);//将jsonStr字符串转成JSONObject对象
                JSONArray imgsJson=(JSONArray) objRoot.get("data");//获得data节点内容
                for(int i1=0;i1<imgsJson.size()-1;i1++) {
                    JSONObject jsonObject=imgsJson.getJSONObject(i1);//获得数组的JSONObject对象
                    String objUri=(String)jsonObject.get("hoverURL");
                    //输出下载的图片地址
                    System.out.println(objUri);
                    //下载图片
                    PictureDownloadMachine.downloadImage(objUri,picture);
                }
            }
    
        }
    }

    PictureDownloadMachine

    
    package com.cjm.utils;
    
    import java.io.ByteArrayOutputStream;
    import java.io.File;
    import java.io.FileOutputStream;
    import java.io.IOException;
    import java.io.InputStream;
    import java.net.HttpURLConnection;
    import java.net.URL;
    import java.nio.file.Paths;
    
    import com.cjm.model.Picture;
    
    /**
     * @time 2016年4月14日
     * @author CHEN
     * @param 
     * @about 一个图片下载的具体实现
     */
    
    public class PictureDownloadMachine {
        /**
         * @param objUri:图片的地址 
         *        picture:提供图片存放的地址
         */
        public static void downloadImage(String objUri,Picture picture) throws IOException {
            //获得图片流
            byte[] btImg=getImageFromNetByUrl(objUri);
            if(null!=btImg&&btImg.length>0) {
                //图片流存在写入硬盘
                String pathStr=Paths.get(picture.getFileUri(), objUri.substring(objUri.lastIndexOf("/")+1)).toString();//拼接路径
                writeImageToDisk(btImg,pathStr);//写入硬盘
            }
        }
    
        private static byte[] getImageFromNetByUrl(String strUrl) {
            try {
                URL url=new URL(strUrl);//将链接转成URL
                HttpURLConnection conn=(HttpURLConnection)url.openConnection();
                //伪装成浏览器
                conn.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2700.0 Safari/537.36");
                //伪装主机
                conn.setRequestProperty("Host" ,"image.baidu.com");
                //设置接收方式
                conn.setRequestProperty("Accept" ,"text/javascript, application/javascript, application/ecmascript, application/x-ecmascript, */*; q=0.01");
                //设置字符
                conn.setRequestProperty("Accept-Encoding" ,"gzip, deflate, sdch");
                //设置连接状态
                conn.setRequestProperty("Connection" ,"keep-alive");
                //伪装请求方
                conn.setRequestProperty("Referer" ,"http://image.baidu.com");
                conn.setRequestProperty("X-Requested-With" ,"XMLHttpRequest");
                conn.setRequestMethod("GET");
                conn.setConnectTimeout(5*1000);
                //获得返回流
                InputStream inStream =conn.getInputStream();
                byte[]btImg=readInputStream(inStream);
                return  btImg;
            } catch(Exception e) {
                e.printStackTrace();
                return null;
            }
        }
        /**
         * @about 捕获内容缓冲区的数据,转换成字节数组
         * @param inputStream :输入流
         *        byteArrayOutputStream :输出流(存储容器)
         */
        private static byte[] readInputStream(InputStream inputStream) throws IOException {
            ByteArrayOutputStream byteArrayOutputStream=new ByteArrayOutputStream();
            byte[]buffer=new byte[1024];
            int len=0;
            while ((len=inputStream.read(buffer))!=-1) {
                byteArrayOutputStream.write(buffer,0,len);
            }
            inputStream.close();
            return byteArrayOutputStream.toByteArray();
        }
        private static void writeImageToDisk(byte[] btImg, String fileUri) throws IOException {
            File file=new File(fileUri);//新建一个文件空壳
            FileOutputStream fileOutputStream=new FileOutputStream(file);//文件输出流
            fileOutputStream.write(btImg);//把图片写到了文件空壳中
            fileOutputStream.flush();//把缓存的内容都写完
            fileOutputStream.close();
        }   
    }

    最后再说几句

    1. 在写这个项目的时候,遇到了jar包的问题,httpclient.jar推荐使用4.3版本号的。不然有可能会报ClassNotFoundException:org.apache.http.message.TokenParser
    2. 该文章为原创文章,转载的时候请附上我的微博链接,谢谢。

    资源下载路径

    小小图片爬虫

  • 相关阅读:
    【PL/SQL】学习笔记 (9)例外之 no_data_found
    【PL/SQL】学习笔记 (8)光标之带参数的光标
    【PL/SQL】学习笔记 (7)光标的属性,一个会话中打开光标数的限制
    【PL/SQL】学习笔记 (6)光标使用的具体示例--emp表涨工资
    Gps定位和wifi定位和基站定位的比较
    多态
    类加载,类初始化及对象实例化
    http和https工具类 (要注意httpclient版本号和log4j的版本号)
    js贪吃蛇
    局部变量,成员变量,静态变量
  • 原文地址:https://www.cnblogs.com/llguanli/p/8420775.html
Copyright © 2011-2022 走看看