zoukankan      html  css  js  c++  java
  • Java 获取网页数据的一般步骤和方式

    在很多行业当中,我们需要对行业进行分析,就需要对这个行业的数据进行分类,汇总,及时分析行业的数据,对于公司未来的发展,有很好的参照和横向对比。面前通过网络进行数据获取是一个很有效而且快捷的方式。
    首先我们来简单的介绍一下,利用java对网页数据进行抓取的一些步骤,有不足的地方,还望指正,哈哈。屁话不多说了。

    其实一般分为以下不足:
    1:通过HttpClient请求到达某网页的url访问地址(特别需要注意的是请求方式)
    2:获取网页源码
    3:查看源码是否有我们需要提取的数据
    4:对源码进行拆解,一般使用分割,正则或者第三方jar包
    5:获取需要的数据对自己创建的对象赋值
    6:数据提取保存

    下面简单的说一下在提取数据中的部分源码,以及用途:

     /**
         * 向指定URL发送GET方法的请求
         *
         * @param url
         *            发送请求的URL
         * @param param
         *            请求参数,请求参数应该是 name1=value1&name2=value2 的形式。
         * @return URL 所代表远程资源的响应结果
         */
        public static String sendGet(String url, String param) {
            String result = "";
            BufferedReader in = null;
            try {
                String urlNameString = url;
                URL realUrl = new URL(urlNameString);
                // 打开和URL之间的连接
                URLConnection connection = realUrl.openConnection();
                // 设置通用的请求属性
                connection.setRequestProperty("accept", "*/*");
                connection.setRequestProperty("connection", "Keep-Alive");
                connection.setRequestProperty("user-agent",
                        "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1;SV1)");
                // 建立实际的连接
                connection.connect();
                // 获取所有响应头字段
                Map<String, List<String>> map = connection.getHeaderFields();
    
                // 定义 BufferedReader输入流来读取URL的响应
                in = new BufferedReader(new InputStreamReader(
                        connection.getInputStream())); //这里如果出现乱码,请使用带编码的InputStreamReader构造方法,将需要的编码设置进去
                String line;
                while ((line = in.readLine()) != null) {
                    result += line;
                }
            } catch (Exception e) {
                System.out.println("发送GET请求出现异常!" + e);
                e.printStackTrace();
            }
            // 使用finally块来关闭输入流
            finally {
                try {
                    if (in != null) {
                        in.close();
                    }
                } catch (Exception e2) {
                    e2.printStackTrace();
                }
            }
            return result;
        }

    解析存储数据

    public Bid getData(String html) throws Exception {
            //获取的数据,存放在到Bid的对象中,自己可以重新建立一个对象存储
            Bid bid = new Bid();
            //采用Jsoup解析
            Document doc = Jsoup.parse(html);
            //  System.out.println("doc内容" + doc.text());
            //获取html标签中的内容tr
            Elements elements = doc.select("tr");
            System.out.println(elements.size() + "****条");
           //循环遍历数据
            for (Element element : elements) {
                if (element.select("td").first() == null){
                    continue;
                }
                Elements tdes = element.select("td");
                for(int i = 0; i < tdes.size(); i++){
                   this.relation(tdes,tdes.get(i).text(),bid,i+1);
                }
            }
            return bid;
        }

    得到的数据

    Bid {
        h2 = '详见内容', 
          itemName = '诉讼服务中心设备采购',
          item = '货物/办公消耗用品及类似物品/其他办公消耗用品及类似物品', 
          itemUnit = '详见内容', 
          areaName = '港北区', 
          noticeTime = '2018年10月22日 18:41',
          itemNoticeTime = 'null',
          itemTime = 'null',
          kaibiaoTime = '2018年10月26日 09:00', 
          winTime = 'null',
          kaibiaoDiDian = 'null', 
          yusuanMoney = '¥67.00元(人民币)', 
          allMoney = 'null', 
          money = 'null', 
          text = ''
    }

  • 相关阅读:
    串口通信
    无法安装SQL提示文件被挂起
    flash图片幻灯片浏览
    document.all与WEB标准
    在新窗口中打开页面 的asp.net后台代码
    sql 触发器
    无技术含量的正则表达式笔记
    两个FTP服务器之间传送数据
    repeater嵌套
    登录
  • 原文地址:https://www.cnblogs.com/zhaixingzhu/p/12562895.html
Copyright © 2011-2022 走看看