zoukankan      html  css  js  c++  java
  • 简单的抓取

    转载:

    由于项目需求,需要采集一些网站的内容。在JAVA领域中,已经存在很多良好的框架用于该应用,如httpclient,webharvest还有更多强大的框架。但由于本身项目比较单纯,且为了良好的自我控制,就决定直接用JDK中的HttpUrlConnection类来抓取网页内容。并不是说那些框架不好,而只是不适用本项目。

    说明:本博的一切内容均可转载,但必须注意出处。http://www.lelelog.com(乐乐日志)

    一、HttpUrlConnection连接之模拟浏览器

    在诸多的网站中,特别是大型的网站,设置了必须是浏览器的请求才会回应。之所以这样设置,就是为了防止我们这种项目给他产生无意义的请求(往往这种请求都是大批量,对其服务器产生负荷)。那为了解决这个问题,我们需要在http请求中,添加属性。

    HttpURLConnection urlConn;

    urlConn.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)");

    这样就设置好了,你可以随意设置你的操作系统值,浏览器值,版本,只要正确就OK了。这样就可以正常有效地访问其网站了。他可不知道你是不是浏览器。你即使是条狗,他也不知道。

     

    二、完整的设置HttpUrlConnection的属性值

    HttpURLConnection urlConn;

    urlConn.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)");
            urlConn.setRequestProperty("Accept",
                    "image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, application/x-shockwave-flash, application/vnd.ms-powerpoint, application/vnd.ms-excel, application/msword, */*");
            urlConn.setRequestProperty("Accept-Language", "zh-cn");
            urlConn.setRequestProperty("UA-CPU", "x86");
            urlConn.setRequestProperty("Accept-Encoding", "gzip");//为什么没有deflate呢
            urlConn.setRequestProperty("Content-type", "text/html");
            urlConn.setRequestProperty("Connection", "close"); //keep-Alive,有什么用呢,你不是在访问网站,你是在采集。嘿嘿。减轻别人的压力,也是减轻自己。

            urlConn.setUseCaches(false);//不要用cache,用了也没有什么用,因为我们不会经常对一个链接频繁访问。(针对程序)
            urlConn.setConnectTimeout(6 * 1000);
            urlConn.setReadTimeout(6*1000);
            urlConn.setDoOutput(true);
            urlConn.setDoInput(true);

    有什么疑问的话,可以查看JDK的API文档,这个可以实时看。至于为什么要设置 gzip,而又不设置deflate,原因如下,有些网站他不管你能接受什么压缩格式,统统也会压缩网页内容传给你。当然IE,FF能处理好这些内容。所以我们通过浏览器查看的时候完全正常。一般gzip的压缩可以将一个33K的文件压缩成7K,这样会节约不少带宽,但服务器的负荷并没有减轻,因为他要压缩文件呀。至于为什么不用deflate,是由于绝大多数网站的压缩方式是用gzip,而在有些网站中,明明是用的gzip却返回deflate的压缩标识。这有什么意义呢,所以干脆就告诉服务器,我不接受deflate,因为他太丑了,又长,哪像gzip这么潮呀。呵呵,对于浏览量大的静态网页服务器,这样做很是必要。100M的独享服务器,他也只有100M呀。

    三、开始采集某个网页的内容

    该方法就是传入一个HttpUrlConnection的链接,和该文件的字符集编码,就可以返回其网页内容了。

    public static String getContentFromIn(HttpURLConnection urlConn, String charset) {
            BufferedReader br = null;
            StringBuilder content = new StringBuilder(200);
            InputStream in = null;
            try {
                if(null == urlConn){
                    return "";
                }            
                if (StringTools.isNotEmpty(urlConn.getContentEncoding())) {
                    String encode = urlConn.getContentEncoding().toLowerCase();
                    if (StringTools.isNotEmpty(encode) && encode.indexOf("gzip") >= 0) {
                        in = new GZIPInputStream(urlConn.getInputStream());                    
                    }
                }

                if (null == in) {
                    in = urlConn.getInputStream();
                }
                if (null != in) {
                    br = new BufferedReader(new InputStreamReader(in, charset));
                    String line = "";
                    while ((line = br.readLine()) != null) {
                        content.append(line);
                    }
                }

            } catch (UnsupportedEncodingException e) {
                e.printStackTrace();
            } catch (IOException e) {
                e.printStackTrace();
            } finally {
                if (null != in) {
                    try {
                        in.close();
                    } catch (IOException e) {
                        e.printStackTrace();
                    }
                    in = null;
                }
                if (null != br) {
                    try {
                        br.close();
                    } catch (IOException e) {
                        e.printStackTrace();
                    }
                    in = null;
                }
            }
            return content.toString();
        }

    至此一个简单的采集工具类诞生了,他的优美在于,代码少,不用引入任何包。纯JDK,一样能干许多事。有时不希望把本来简单的事情搞得复杂化。虽然不要创造重复的轮子,但我们不能纯拿来主义,就像这样一个简单的功能,不需要搞得太复杂。只要不DRY就可以了,这样自己也能一点点地进步。

  • 相关阅读:
    springboot启动后执行某些动作
    Virtualbox的nat网络
    xshell6
    day01 K8S
    Nginx的日志文件切割
    virtualbox磁盘空间大小调整
    装修柜子木台面
    mybatis 批量in 多个字段写法
    jenkins shell常用配置
    activiti工作流引擎数据库表结构
  • 原文地址:https://www.cnblogs.com/hmpcly/p/8108206.html
Copyright © 2011-2022 走看看