zoukankan      html  css  js  c++  java
  • 讯速开源分布式定向采集系统(hitask)

    讯速分布式定向采集系统(hitask)

    讯速开源分布式定向采集系统(hitask)

    欢迎加入开源搜索引擎QQ讨论群:1831546 合作洽谈QQ:4451310 检索系统介绍
    源码下载
    学习资料

    目录

        系统简介
        采集流程
        配置运行
        测试实例
    展开


    任何疑问请提交官方微博http://weibo.com/sounos或者邮箱sounos@gmail.com

    系统简介

    讯速分布式定向采集系统(hitask)是一个开源的数据采集系统, 开发始于2008年,早期版本属于实验版本仅仅支持数据采集功能, 不能精准的抽取网页内容,在此基础上发展的分布式采集系统具备多节点同时采集功能, 同时支持模版的方式抽取内容, 大大提高系统的可用性和网络带宽利用率. 基础通信库使用libsbase, 字符集识别使用libcharset(C++), 核心代码全部由纯C语言实现, 采用面向对象设计思想. 运行于类unix系统linux/BSD,主要功能点如下:

    异步DNS解析

    URL排重

    支持HTTP 压缩编码传输 gzip/deflate

    字符集判断自动转换成UTF-8编码

    文档压缩存储

    支持多下载节点分布式下载

    下载任务控制(可停止和恢复任务),指定url优先下载,指定host优先下载
    采集流程

    从中心节点取URL(包括URL对应的任务号, IP和port,也可能host需要任务节点自己解析)

    连接服务器发送请求

    等待数据头判断是否需要的数据(目前主要取text类型的数据)

    等待完成数据(有length头的直接等待说明长度的数据否则等待比较大的数字然后设置超时)

    数据完成或者超时, zlib压缩数据返回给中心服务器,数据可能包括自己解析DNS信息, 压缩后数据长度+压缩后数据, 如果出错就直接返回任务号以及相关信息

    中心服务器收到带有任务号的数据, 查看是否包括数据, 如果没有数据直接置任务号对应的状态为错误, 如果有数据提取数据种link 然后存储数据到文档文件.

    完成后返回一个新的任务.
    配置运行

    下载最新版hitask: http://code.google.com/p/hispider/downlgads/list

    程序依赖包 zlib pcre libcharset libevbase libsbase

    测试实例数据包 http://hispider.googlecode.com/files/hitask.tar.gz

    下载解压到指定目录下一个后更改 /etc/hitaskd.ini 里的配置路径 "hibasedir" 为解压后的路径.

    服务启动:

    /usr/local/bin/hitaskd -d -c /usr/local/etc/hitaskd.ini

    /usr/local/bin/hitask -d -c /usr/local/etc/hitask.ini
    测试实例

    服10.管理URL-添加种子

     

  • 相关阅读:
    mem 预留内存
    关于内核反汇编,同时显示源文件
    读些笔记
    platform设备驱动
    glut 右键子菜单
    获取HINSTANCE
    window窗口样式style
    opengl 直线拾取
    glut弹出式菜单
    读取大恒采集卡c++代码
  • 原文地址:https://www.cnblogs.com/lexus/p/2410142.html
Copyright © 2011-2022 走看看