zoukankan      html  css  js  c++  java
  • freecms使用jsoup和quartz抓取其他网站内容

    这里提到了freecms,其实抓取和freecms没什么关系,主要还是靠jsoup

    jsoup里提供了html解析和读取的方法,集成了httprequest,可以从网络和本地读取,支持非闭合标签等。

    csdn中有比较详细的介绍

    http://blog.csdn.net/column/details/jsoup.html

    一般抓取页面的内容,都是后台进行的,多数是周期抓取,那么肯定要有调度的方法,包括 Timer,Scheduler, Quartz 以及 JCron Tab等等。这篇文件介绍和对比了这几种方法。

    http://www.ibm.com/developerworks/cn/java/j-lo-taskschedule/

    至于抓取后的数据怎么处理,这里就不多介绍了。切记要留意数据版权,不要侵权,该注明引用的地方要注明。数据不该落地的不要落地。

  • 相关阅读:
    左旋一个字符串和手摇反转法
    LCS
    游戏服务器学习_1
    面试题_带答案_2
    面试题_带答案
    安卓_13
    安卓_12activity
    安卓_12
    多盟_1
    安卓没删干净导致报错
  • 原文地址:https://www.cnblogs.com/slimo/p/4904792.html
Copyright © 2011-2022 走看看