zoukankan      html  css  js  c++  java
  • (java)Jsoup爬虫学习--获取网页所有的图片,链接和其他信息,并检查url和文本信息

    Jsoup爬虫学习--获取网页所有的图片,链接和其他信息,并检查url和文本信息

    此例将页面图片和url全部输出,重点不太明确,可根据自己的需要输出和截取;

    import org.jsoup.Jsoup;
    import org.jsoup.helper.Validate;
    import org.jsoup.nodes.Document;
    import org.jsoup.nodes.Element;
    import org.jsoup.select.Elements;
    
    import java.io.IOException;
    
    public class ListLinks {
        public static void main(String[] args) throws IOException {
            //将url赋值,初始化
            String url = "http://news.ycombinator.com/";
            print("url is %s...", url);
            //获取页面内容
            Document doc = Jsoup.connect(url).get();
            //将a标签下的href元素取出
            Elements links = doc.select("a[href]");
            //将含src的元素取出 例如:src="s.gif"
            Elements media = doc.select("[src]");
            //将link标签下的href元素取出
            Elements imports = doc.select("link[href]");
            //输出含src的元素的个数
            print("
    Media: (%d)", media.size());
            for (Element src : media) {
                //将tagname为img标签的取出,并输出
                if (src.tagName().equals("img"))
                    //第一个为tagname,输出的为img标签;第二个为src等于号后面的参数值,为此处为url网址,第三个为图片宽,第四个为图片高,第五个为alt的参数值,此例为空
                    print(" * %s: <%s> %sx%s (%s)",
                            src.tagName(), src.attr("abs:src"), src.attr("width"), src.attr("height"),
                            trim(src.attr("alt"), 20));
                else
                    //若tagname不为img,则仅输出三项内容
                    print(" * %s: <%s>", src.tagName(), src.attr("abs:src"));
            }
            //输出含link>href元素的个数
            print("
    Imports: (%d)", imports.size());
            //循环每个link>href元素
            for (Element link : imports) {
                //第一个为tagname,输出的为link标签;第二个为href等于号后面的参数值,为此处为url网址;第三个为rel等号后面的参数值
                print(" * %s <%s> (%s)", link.tagName(),link.attr("abs:href"), link.attr("rel"));
            }
            //输出含a>href元素的个数
            print("
    Links: (%d)", links.size());
            for (Element link : links) {
                //第一个为tagname,输出的为a标签;第二个为href等于号后面的参数值,为此处为url网址;第三个为link标签含的文本值,若超过35个字符则,截取前35个字符
                print(" * a: <%s>  (%s)", link.attr("abs:href"), trim(link.text(), 35));
            }
        }
        //重写print
        private static void print(String msg, Object... args) {
            System.out.println(String.format(msg, args));
        }
        //重写trim
        private static String trim(String s, int width) {
            if (s.length() > width)
                return s.substring(0, width-1) + ".";
            else
                return s;
        }
    }

    此处还用到了java占位符:

    int year=2017;
    int month=6;
    int day=1;</P>
    String str=String.format("今天是%d年%d月%d日,祝大家儿童节快乐!!!",
                             year, month, day);

    代码中的String.format方法,用来使用占位符拼接字符串数据,具有类型效果的还有用于打印的:
    System.out.printf("format string",  Object...args)

    其中的 %d 就表示一个十进制整数位置,这个位置会由后面参数补充后组成新的字符串

    以下是所有的占位符及简要说明:
    %s 字符串
    %c 字符
    %d 整数(十进制)
    %x 整数(十六进制)
    %o 整数(八进制)
    %f 浮点型(十进制)
    %a 浮点型(十六进制)
    %e 指数类型9.38e+5
    %g 通用浮点类型(f和e类型中较短的)
    %n 换行
    %% 百分号%

    %tF 日期2017-05-09
    %tT 时间08:52:59
    %tA 星期一
    %tZ 区时CTS
    %tz 区时+0800
    %tY 年份2017
    %ty 年份17
    %tm 月份05
    %td 日期09
    %tH 小时08
    %tM 分钟52
    %tS 秒钟59
    %tL 毫秒999

  • 相关阅读:
    Hibernate 笔记 之 三 基础优化方面
    Hibernate 笔记 之 二 查询
    Hibernate 笔记 之 一 创建与配置
    hibernate初次配置及测试
    CentOS 7.3 安装MySQL--Java--Tomcat
    Spring AOP:自动注入参数值
    Spring AOP:实现Request信息获取
    IntelliJ IDEA导出项目文档
    IntelliJ IDEA:Shortcut Key
    iText生成PDF
  • 原文地址:https://www.cnblogs.com/xiao02fang/p/9382170.html
Copyright © 2011-2022 走看看