zoukankan      html  css  js  c++  java
  • 进行网页内容爬取的方法

    1.使用webzip进行整站或指定页面的下载

    2.使用jsoup进行在线网页内容获取

      例子:

    @Autowired
        private TmCategoryOneRepository tmCategoryOneRepository;
    
        public HashMap<String, String> importTmCategoryOne(String url) {
    
            try {
                Document doc = Jsoup.connect(url).get();
                Elements results = doc.getElementsByClass("dw");
                Elements results1 = doc.getElementsByTag("h3");
                Elements results2 = doc.getElementsByTag("h1");
                Elements results3 = results.select("a");
                List<String> list = new ArrayList<String>();
                List<String> list1 = new ArrayList<String>();
                List<String> list2 = new ArrayList<String>();
                List<String> list3 = new ArrayList<String>();
                for (Element element : results3) {
                    list3.add(element.attr("href"));
                }
                for (Element element : results2) {
                    list1.add(element.text());
                }
                for (Element element : results1) {
                    list.add(element.text());
                }
                for (Element element : results) {
                    list2.add(element.text());
                }
                for (int i = 0; i < list2.size(); i++) {
    
                    TmCategoryOne tmo = new TmCategoryOne();
    
                    tmo.setId(OidMgr.requestOID("tm_category_one").toString());
                    tmo.setName(list2.get(i));
                    tmo.setUrl(list3.get(i));
                    tmo.setParticulars(list1.get(i));
                    tmo.setCode(i + "");
                    tmo.setAnnotation(list.get(i));
    
                    tmCategoryOneRepository.save(tmo);
    
                }
    
            } catch (IOException e) {
                e.printStackTrace();
            }
            return new HashMap<>();
        
  • 相关阅读:
    C语言基础--函数
    C语言基础--for循环
    C语言基础--while循环
    C语言基础--switch
    iOS UIView常用方法和属性
    iOS UIView简单缩放动画
    Android ListView动态改变Item高度
    iOS UILabel自定义行间距时获取高度
    iOS UILable高度自适应
    iOS 简单block的使用
  • 原文地址:https://www.cnblogs.com/zixiaopiaomiao/p/5849637.html
Copyright © 2011-2022 走看看