简单的抓取 - 走看看

zoukankan html css js c++ java

简单的抓取

转载：

由于项目需求，需要采集一些网站的内容。在JAVA领域中，已经存在很多良好的框架用于该应用，如httpclient，webharvest还有更多强大的框架。但由于本身项目比较单纯，且为了良好的自我控制，就决定直接用JDK中的HttpUrlConnection类来抓取网页内容。并不是说那些框架不好，而只是不适用本项目。

说明：本博的一切内容均可转载，但必须注意出处。http://www.lelelog.com(乐乐日志)

一、HttpUrlConnection连接之模拟浏览器

在诸多的网站中，特别是大型的网站，设置了必须是浏览器的请求才会回应。之所以这样设置，就是为了防止我们这种项目给他产生无意义的请求（往往这种请求都是大批量，对其服务器产生负荷）。那为了解决这个问题，我们需要在http请求中，添加属性。

HttpURLConnection urlConn;

urlConn.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)");

这样就设置好了，你可以随意设置你的操作系统值，浏览器值，版本，只要正确就OK了。这样就可以正常有效地访问其网站了。他可不知道你是不是浏览器。你即使是条狗，他也不知道。

二、完整的设置HttpUrlConnection的属性值

HttpURLConnection urlConn;

urlConn.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)");
        urlConn.setRequestProperty("Accept",
                "image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, application/x-shockwave-flash, application/vnd.ms-powerpoint, application/vnd.ms-excel, application/msword, */*");
        urlConn.setRequestProperty("Accept-Language", "zh-cn");
        urlConn.setRequestProperty("UA-CPU", "x86");
        urlConn.setRequestProperty("Accept-Encoding", "gzip");//为什么没有deflate呢
        urlConn.setRequestProperty("Content-type", "text/html");
        urlConn.setRequestProperty("Connection", "close"); //keep-Alive，有什么用呢，你不是在访问网站，你是在采集。嘿嘿。减轻别人的压力，也是减轻自己。

        urlConn.setUseCaches(false);//不要用cache，用了也没有什么用，因为我们不会经常对一个链接频繁访问。（针对程序）
        urlConn.setConnectTimeout(6 * 1000);
        urlConn.setReadTimeout(6*1000);
        urlConn.setDoOutput(true);
        urlConn.setDoInput(true);

有什么疑问的话，可以查看JDK的API文档，这个可以实时看。至于为什么要设置 gzip，而又不设置deflate，原因如下，有些网站他不管你能接受什么压缩格式，统统也会压缩网页内容传给你。当然IE，FF能处理好这些内容。所以我们通过浏览器查看的时候完全正常。一般gzip的压缩可以将一个33K的文件压缩成7K，这样会节约不少带宽，但服务器的负荷并没有减轻，因为他要压缩文件呀。至于为什么不用deflate，是由于绝大多数网站的压缩方式是用gzip，而在有些网站中，明明是用的gzip却返回deflate的压缩标识。这有什么意义呢，所以干脆就告诉服务器，我不接受deflate，因为他太丑了，又长，哪像gzip这么潮呀。呵呵，对于浏览量大的静态网页服务器，这样做很是必要。100M的独享服务器，他也只有100M呀。

三、开始采集某个网页的内容

该方法就是传入一个HttpUrlConnection的链接，和该文件的字符集编码，就可以返回其网页内容了。

public static String getContentFromIn(HttpURLConnection urlConn, String charset) {
        BufferedReader br = null;
        StringBuilder content = new StringBuilder(200);
        InputStream in = null;
        try {
            if(null == urlConn){
                return "";
            }
            if (StringTools.isNotEmpty(urlConn.getContentEncoding())) {
                String encode = urlConn.getContentEncoding().toLowerCase();
                if (StringTools.isNotEmpty(encode) && encode.indexOf("gzip") >= 0) {
                    in = new GZIPInputStream(urlConn.getInputStream());
                }
            }

            if (null == in) {
                in = urlConn.getInputStream();
            }
            if (null != in) {
                br = new BufferedReader(new InputStreamReader(in, charset));
                String line = "";
                while ((line = br.readLine()) != null) {
                    content.append(line);
                }
            }

        } catch (UnsupportedEncodingException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        } finally {
            if (null != in) {
                try {
                    in.close();
                } catch (IOException e) {
                    e.printStackTrace();
                }
                in = null;
            }
            if (null != br) {
                try {
                    br.close();
                } catch (IOException e) {
                    e.printStackTrace();
                }
                in = null;
            }
        }
        return content.toString();
    }

至此一个简单的采集工具类诞生了，他的优美在于，代码少，不用引入任何包。纯JDK，一样能干许多事。有时不希望把本来简单的事情搞得复杂化。虽然不要创造重复的轮子，但我们不能纯拿来主义，就像这样一个简单的功能，不需要搞得太复杂。只要不DRY就可以了，这样自己也能一点点地进步。

查看全文

相关阅读:
HTML5/CSS3速成教程
 ECMAScript5.1
HTML5新特性有哪些，你都知道吗
 如何写出兼容性很好的页面
 数据库三个范式详解
 UML入门
 前端总结·基础篇·CSS（一）布局
 常用的14种HTTP状态码速查手册
 传输层协议TCP和UDP
js获取地址栏参数

原文地址：https://www.cnblogs.com/hmpcly/p/8108206.html