zoukankan html css js c++ java

spider-web 是爬虫的网页版，使用xml配置

spider-web 是爬虫的网页版，使用xml配置，支持大部分页面的爬取，支持爬取内容的保存、下载等。

其中配置文件格式为：

<?xml version="1.0" encoding="UTF-8"?>
<content>
    <url type="simple"><!-- simple/complex -->
        <url_head>http://www.oschina.net/tweets</url_head>
        <url_start></url_start>
        <url_end></url_end>
        <url_suffix></url_suffix>
    </url>
    <analysis type="list"><!-- single/list -->
        <elem name="title">
            <attr type="key" num="1"><!-- tag/class/key -->
                <name>link</name><!-- $http://my.oschina.net/(.)* -->
                <pro>http://my.oschina.net/(.)*/[0-9]*</pro>
            </attr>
            <attr type="class" num="2"><!-- tag/class/key -->
                <name>tweet</name>
                <pro>a</pro>
            </attr>
            <attr type="class" num="3">
                <name>txt</name>
                <pro>a</pro>
            </attr>
            <attr type="tag" num="4">
                <name>a</name>
                <pro>a</pro>
            </attr>
        </elem>
        <elem name="content">
            <attr type="key" num="1"><!-- tag/class/key -->
                <name>link</name><!-- $http://my.oschina.net/(.)* -->
                <pro>http://my.oschina.net/(.)*/[0-9]*</pro>
            </attr>
            <attr type="class" num="2"><!-- tag/class/key -->
                <name>tweet</name>
                <pro>a</pro>
            </attr>
            <attr type="class" num="3">
                <name>txt</name>
                <pro>a</pro>
            </attr>
        </elem>
    </analysis>
    <target type="download"><!-- download/text -->
    </target>
</content>

根据不同的页面进行设置，可以支持比较流行的页面爬取。

gllfeixiang/spider-web

star 1 | fork 3

爬虫网页版

issues: 没有issue

最近提交:

7092aa088 基本成型
gllfeixiang 8个月前
b3953d9de 爬虫网页版
gllfeixiang 9个月前
8d5ede1dc Initial commit
gllfeixiang 9个月前

下载zip master分支代码最近更新：2014-12-02

查看全文

相关阅读:
模块化项目
 mysql mybatis-generator plugin 有page实体类的分页
 mysql mybatis-generator plugin 分页
 eclipse中mybatis generator插件的安装与使用，实现自动生成代码
 linux下安装mysql5.7.17及简单配置
 mybatis-mysql操作存储过程
 解决JSP路径问题的方法（jsp文件开头path, basePath作用）
windows下开启mysql远程访问
 Java中hashCode的作用
 垃圾收集器与内存分配策略（深入理解JVM二）

原文地址：https://www.cnblogs.com/timssd/p/4719829.html