zoukankan      html  css  js  c++  java
  • Java网络蜘蛛/网络爬虫 Spiderman

    Spiderman - 又一个Java网络蜘蛛/爬虫

    Spiderman 是一个基于微内核+插件式架构的网络蜘蛛,它的目标是通过简单的方法就能将复杂的目标网页信息抓取并解析为自己所需要的业务数据。

    主要特点

    * 灵活、可扩展性强,微内核+插件式架构,Spiderman提供了多达 10 个扩展点。横跨蜘蛛线程的整个生命周期。
    * 通过简单的配置就可以将复杂的网页内容解析为自己需要的业务数据,无需编写一句代码
    * 多线程

    怎么使用?

    • 首先,确定好你的目标网站以及目标网页(即某一类你想要获取数据的网页,例如网易新闻的新闻页面)
    • 然后,打开目标页面,分析页面的HTML结构,得到你想要数据的XPath,具体XPath怎么获取请看下文。
    • 最后,在一个xml配置文件里填写好参数,运行Spiderman吧!

    这里有个抓取案例

    这里有篇文章介绍示例: http://my.oschina.net/laiweiwei/blog/100866

    XPath获取技巧?

    这里只说下Chrome浏览器,其他浏览器估计也差不多,只不过插件不同而已。

    • 首先,下载xpathonclick插件,https://chrome.google.com/webstore/search/xpathonclick
    • 安装完毕之后,打开Chrome浏览器,可以看到右上角有个“X Path” 图标。
    • 在浏览器打开你的目标网页,然后点击右上角的那个图片,然后点击网标上你想要获取XPath的地方,例如某个标题
    • 这时候按住F12打开JS控制台,拖到底部,可以看到一串XPath内容
    • 记住,这个内容不是绝对OK的,你可能还需要做些修改,因此,你最好还是去学习下XPath语法
    • 学习XPath语法的地方:http://www.w3school.com.cn/xpath/index.asp
    强力 Java 爬虫,列表分页、详细页分页、ajax、微内核高扩展、配置灵活

    下载zip

  • 相关阅读:
    004 使用文本编辑器
    003 第一个Python程序
    002 Python解释器
    001 安装Python
    000 Python教程
    001 Java环境变量配置
    002 基础语法1
    003 基础语法2
    dede首页调用会员积分和头像代码
    DEDE 会员调用方法
  • 原文地址:https://www.cnblogs.com/timssd/p/4719826.html
Copyright © 2011-2022 走看看