zoukankan      html  css  js  c++  java
  • document解析html

    解决一个问题有很多方法,虽然可以达到同样的目的,但是过程却是相差胜远.比如:从HTML代码片段里面获取img属性的值

    我刚刚开始使用的是正则表达式去匹配,代码如下:

    /** 
         * 得到网页中图片的地址 
         * @param sets html字符串 
         */  
        public  Set<String> getImgStr(String htmlStr) {  
            Set<String> pics = new HashSet<String>();  
            String img = "";  
            Pattern p_image;  
            Matcher m_image;  
            String regEx_img = "<img.*src\s*=\s*(.*?)[^>]*?>";  
            p_image = Pattern.compile(regEx_img, Pattern.CASE_INSENSITIVE);  
            m_image = p_image.matcher(htmlStr);  
            while (m_image.find()) {  
                // 得到<img />数据  
                img = m_image.group();  
                // 匹配<img>中的src数据  
                Matcher m = Pattern.compile("src\s*=\s*"?(.*?)("|>|\s+)").matcher(img);  
                while (m.find()) {  
                    pics.add(m.group(1));  
                }  
            }  
            return pics;  
        }  

    运行过程中发现这种全字段去匹配的方式效率非常低,如果内容大点,会卡死.后面才知道java的document对象可以快速解析HTML代码

    Document doc = Jsop.parse(htmlStr);
    Elements imgNodeList = doc.select("img");
    String src = "";
    StringBuffer srcBase64s = new StringBuffer();
    int n = 1;
    for(Element imgNode : imgNodeList){
        src = imgNode.attr("src");
        if(src.contains("base64")){
            String srcBase64 = src.split(",")[1];
            if(n<imgNodeList).size()){
                srcBase64s.append(srcBase64).append(",");
                n++;
            }else{
                srcBase64s.append((srcBase64);
            }
        }
    }
    //转化为二进制存储,图片一般都是以二进制去存储的
    Bytes.toBytes(srcBase64s.toString())

    document是分节点去获取属性值,效率会高很多,其操作方式跟js,jQuery的方式类似,具体可以参照该https://blog.csdn.net/qq541976141/article/details/51162084博客

  • 相关阅读:
    Altera Coding Style 之多路选择器
    Altera Coding Style 之 时钟切换
    Altera Coding Style 之状态机
    Altera Coding Style 之 Latch
    Altera Coding Style 之 加法器
    JS代码小集合
    汉字转换字符C#(c shap) 代码
    php动态调用方法
    JavaScript 拖放效果
    C# 取得域名及目录地址
  • 原文地址:https://www.cnblogs.com/jzhxhs/p/9131854.html
Copyright © 2011-2022 走看看