zoukankan      html  css  js  c++  java
  • 数据获取以及处理系统 --- 技术规格说明书

    详细技术说明

    1.  系统架构概述:

    系统主要由两个部分组成: 爬虫数据获取系统以及数据处理系统

    爬虫数据处理就是一个依据源节点网页开展广义优先搜索,定向的查找关键词并且找到文件然后储存在本地,同时将相关信息存入数据库。

    数据处理系统是依靠数据库存储信息对于文件进行关键词提取整理筛选然后存入目标数据库。

    2. 细节描述:

    2.1. 整体框架:

      程序主体服务器由Java实现,Java方面需要实现的内容包含爬虫脚本的控制,各类文件处理模块的组装控制等。
      在其下面具体包含Crawler, pdfReader, docReader, htmlReader, bridge等组件(有待后续更新)

    2.2. 组件描述

    2.2.1 Crawler

      输入为源地址,关键词

      输出为文件集合,用java实现,主要用来实现初始数据的集合的收集

    2.2.2 pdfReader

      输入为文件路径

      输出为从文件中提取的关键信息:关键字、作者、编写时间等

    2.2.3 docReader

      输入为文件路径

      输出为从文件中提取的关键信息:关键字、作者、编写时间等

    2.2.4 htmlReader

      输入为网页链接

      输出为从网页中提取的关键信息:关键字、时间等

    2.2.5 bridge

      不需要输入

      自动将所有文件处理模块得到的信息存储到最终目标位置,例如solr里面

  • 相关阅读:
    awk查看本机IP+查看本网段mac
    wget
    kvm安装,使用,优化
    方向
    bindview+dlz(mysql)
    页面侧滑栏效果
    数据库的事务理解
    页面平衡移动进出的效果
    返回键弹出是否退出对话框
    引导页之页面等待3秒跳转
  • 原文地址:https://www.cnblogs.com/longweilingshi/p/6003829.html
Copyright © 2011-2022 走看看