zoukankan      html  css  js  c++  java
  • java 利用jsoup 爬取知乎首页问题

    今天学了下java的爬虫,首先要下载jsoup的包,然后导入,导入过程:首先右击工程:Build Path ->configure Build Path,再点击Add External JARS,进行导包。

    学习参考文档:https://jsoup.org/

    但是有一点小问题:就是利用java爬虫爬去了知乎的问题,但是却只爬到了前三条,大体思路应该还是正确的。不知怎么解决,如果各位大佬有思路,望指教:

    import org.jsoup.Jsoup;
    import org.jsoup.nodes.Document;
    import org.jsoup.nodes.Element;
    import org.jsoup.select.Elements;
    import java.io.IOException;
    import org.jsoup.Jsoup;
    import org.jsoup.nodes.Document;
    import org.jsoup.nodes.Element;
    import org.jsoup.select.Elements;
    
    public class worm0{
        public static void main(String[] args) throws IOException {
        
            Document document=Jsoup.connect("https://www.zhihu.com/").get();
            Elements main=document.select(".ContentLayout-mainColumn");
            
            Elements url=main.select("h2[class=ContentItem-title]").select("a");
            System.out.println("url"+url);
            for(Element question:url){
                //输出href后的值,即主页上每个关注问题的链接
                String URL=question.attr("abs:href");
                //下载问题链接指向的页面
                Document document2=Jsoup.connect(URL).get();
                //问题
                Elements title=document2.select(".QuestionHeader-title");
                //问题描述
                Elements detail=document2.select("span[class=RichText ztext]");
                //回答
                Elements answer=document2.select(".RichContent-inner");
                System.out.println("
    "+"链接:"+URL
                        +"
    "+"标题:"+title.text()
                        +"
    "+"问题描述:"+detail.text()
                        +"
    "+"回答:"+answer.text());
            }   
        }
    }
  • 相关阅读:
    IIS 安装 pydio
    Windows环境配置Apache+Mysql+PHP
    Azure 云平台用 SQOOP 将 SQL server 2012 数据表导入 HIVE / HBASE
    PHP 启动 cURL模块以及启动失败的解决方案
    NodeJS 各websocket框架性能分析
    使用AndroidStudio编译NDK的方法及错误解决方案
    Ubuntu 系统下 mongodb 安装和配置
    Ubuntu安装nodeJS
    node.js应用Redis数据库
    Android平台相机接口的应用
  • 原文地址:https://www.cnblogs.com/xr210/p/9338974.html
Copyright © 2011-2022 走看看