zoukankan      html  css  js  c++  java
  • jsoup 的简单应用

    导入相关jar包

    package jsoup.zr.com.utils;
    
    import java.io.IOException;
    import java.util.List;
    
    import org.jsoup.Jsoup;
    import org.jsoup.nodes.Attribute;
    import org.jsoup.nodes.Attributes;
    import org.jsoup.nodes.Document;
    import org.jsoup.nodes.Element;
    import org.jsoup.nodes.Node;
    
    public class TestClass {
        
        public static void main(String[] args) {
            TestClass.paserHTML("https://www.baidu.com");
        }
        /**
         * 通过URL来解析HTML
         * @param url
         */
        public static void  paserHTML(String url){
            Document document = null;
            Element body = null;
            Element head = null;
            String title = null;
            String tagName = null;
            try {
                // 通过URL获取HTML文档
                document = Jsoup.connect(url).get();
                // 获取body部分
                body = document.body();
                // 获取head部分
                head = document.head();
                
                // 根据标签名找节点
                List<Element> links = head.getElementsByTag("link");
                for (Element element : links) {
                    System.out.println(element.tagName()+",");
                    // 根据key查找相关的属性value
                    String value = element.attr("rel");
                    System.out.println("value:"+value);
                    
                }
                // 获取标签名
                tagName = head.tagName();
                
                // 获取标题    
                title = document.title();
                
                // 通过id选择器获取标签
                Element element = document.getElementById("head");
                // 获取文本内容
                String connent = element.text();
                System.out.println("id选择器:"+element.tagName()+",内容:"+connent);
            } catch (IOException e) {
                e.printStackTrace();
            }
            System.out.println(document);
        }
        
    }
  • 相关阅读:
    Pausing Coyote HTTP/1.1 on http-8080
    网站后台管理中生成首页失败
    Eclipse快捷键集结
    电子商务网站推广10大方法
    Eclipse使用
    注册表中更换桌面背景
    网站卡死,照惯例运行.bat批量处理文件进行重启不起作用
    同时处理html+js+jquery+css的插件安装(Spket&Aptana插件安装)
    JQuery的插件
    Eclipse插件
  • 原文地址:https://www.cnblogs.com/lantu1989/p/6714456.html
Copyright © 2011-2022 走看看